[發明專利]品種鑒定的方法、其預測模型的構建方法和裝置在審
| 申請號: | 202011119585.0 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112102880A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 陳志強;梁齊齊;吳俊;曹志生;李瑞強 | 申請(專利權)人: | 北京諾禾致源科技股份有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 路秀麗 |
| 地址: | 102200 北京市昌平區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 品種 鑒定 方法 預測 模型 構建 裝置 | ||
1.一種品種鑒定預測模型的構建方法,其特征在于,所述構建方法包括:
獲取SNP數據集;
對所述SNP數據集進行預處理,得到SNP數據矩陣;
對所述SNP數據矩陣進行降維處理,得到SNP縮減集;
以所述SNP縮減集為特征值,以樣本所屬群體名作為目標值,進行模型訓練及模型參數調節,獲得初步模型;
對所述初步模型進行評估,得到所述品種鑒定的預測模型。
2.根據權利要求1所述的構建方法,其特征在于,對所述SNP數據集進行預處理,得到SNP數據矩陣包括:
去除所述SNP數據集中存在缺失和/或最小等位基因頻率低于5%的SNP位點,得到有效SNP位點;
將m個樣本的總計n個所述有效SNP位點的基因型進突變純合行數字編碼轉化,得到所述SNP數據矩陣m×n;
其中,野生純合基因型AA記為0,雜合基因型AB記為1,基因型BB記為2,m和n分別為自然數,優選為大于等于2的自然數。
3.根據權利要求1所述的構建方法,其特征在于,對所述SNP數據矩陣進行降維處理,得到SNP縮減集包括:
采用主成分分析法對所述SNP數據矩陣進行降維處理,得到所述SNP縮減集;
優選地,所述降維處理包括:
計算每個SNP位點在不同樣本間的協方差,形成協方差矩陣Tnxm,計算所述協方差矩陣的特征值和特征向量;
按所述特征值大小排序,當第n1+1個特征值大小相比第n1個特征值大小顯著下降時,保留前n1個所述特征值的所述特征向量,n1為小于n的自然數;
對保留下來的每個所述特征值對應的所述特征向量里的元素值按絕對值大小進行排序,并選擇每個所述特征值上排序靠前的預定數量個元素,每個所述元素未排序前的位置對應SNP位點位置,從而獲得總數為n2個SNP位點的所述SNP縮減集,其中,n1≤n2<n。
4.根據權利要求1所述的構建方法,其特征在于,在進行模型訓練及調節模型參數的步驟中,采用網格搜索的方法進行調節。
5.根據權利要求1至4中任一項所述的構建方法,其特征在于,對所述初步模型進行評估,得到所述品種鑒定的預測模型包括:
將所述SNP縮減集分為訓練集和測試集;
通過對所述訓練集進行五折交叉驗證,并在所述測試集上輸出AUC值的方式對所述初步模型進行評估;
若評估結果符合預設標準,則將所述初步模型作為所述預測模型;
若評估結果不符合所述預設標準,則返回所述初步模型,重復執行所述模型訓練及模型參數調節步驟,直至所述評估結果符合所述預設標準。
6.根據權利要求5所述的構建方法,其特征在于,所述構建方法在得到所述品種鑒定的預測模型的同時,還包括:
對所述預測模型導出并存儲到集群路徑下,同時對所述預測模型返回的每個SNP位點的重要度進行排序,并將每個SNP位點的重要度導出并存儲到所述集群路徑下。
7.一種品種鑒定的方法,其特征在于,所述方法包括:
將待鑒定樣本的SNP數據集依次進行預處理及降維處理,得到待鑒定樣本的SNP縮減集;
將所述待鑒定樣本的SNP縮減集導入權利要求1至6中任一項所述的構建方法所構建的預測模型進行預測,從而獲得待鑒定樣本所屬群體。
8.根據權利要求7所述的方法,其特征在于,
所述預處理按照權利要求2所述的構建方法中的預處理步驟進行;
所述降維處理按照權利要求3所述的構建方法中的降維處理步驟進行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京諾禾致源科技股份有限公司,未經北京諾禾致源科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011119585.0/1.html,轉載請聲明來源鉆瓜專利網。





