首页 > 遗传 > 利用基因组标记和机器学习算法对中国牛品种的分类准确性研究

利用基因组标记和机器学习算法对中国牛品种的分类准确性研究

Classification accuracy of machine learning algorithms for Chinese local cattle breeds using genomic markers

二维码有效期 120s

摘要品种分类是畜禽品种遗传资源保护和利用的基础,传统分类方法主要依赖于体型外貌特征判断,但因分类指标不易量化,故难以区分相似度较高的品种.机器学习算法在利用基因组信息进行品种分类方面显示出独特优势.为了探索最适合于中国牛品种的分类方法,本研究使用7个地方品种共213头牛的基因组SNP数据,对比了 FST值排序筛选、mRMR、Relief-F三种SNP选择方法和随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Byes,NB)三种不同机器学习算法对品种分类准确性的影响.结果表明:1)使用FST方法筛选1500个以上SNP,或使用mRMR算法筛选1000个以上SNP,SVM分类算法可以达到99.47％以上的分类准确率;2)分类效果最好的算法是SVM算法,其次是NB算法,而最好的SNP选择方法是FST和mRMR算法,其次是Relief-F;3)品种错误归类情况常出现在相似性较高的品种间.本研究显示机器学习分类模型结合基因组数据是对牛地方品种鉴别的有效方法,为我国牛品种的快速准确分类提供了技术依据.