[發(fā)明專利]品種鑒定的方法、其預(yù)測模型的構(gòu)建方法和裝置在審
| 申請?zhí)枺?/td> | 202011119585.0 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112102880A | 公開(公告)日: | 2020-12-18 |
| 發(fā)明(設(shè)計)人: | 陳志強(qiáng);梁齊齊;吳俊;曹志生;李瑞強(qiáng) | 申請(專利權(quán))人: | 北京諾禾致源科技股份有限公司 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 路秀麗 |
| 地址: | 102200 北京市昌平區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 品種 鑒定 方法 預(yù)測 模型 構(gòu)建 裝置 | ||
1.一種品種鑒定預(yù)測模型的構(gòu)建方法,其特征在于,所述構(gòu)建方法包括:
獲取SNP數(shù)據(jù)集;
對所述SNP數(shù)據(jù)集進(jìn)行預(yù)處理,得到SNP數(shù)據(jù)矩陣;
對所述SNP數(shù)據(jù)矩陣進(jìn)行降維處理,得到SNP縮減集;
以所述SNP縮減集為特征值,以樣本所屬群體名作為目標(biāo)值,進(jìn)行模型訓(xùn)練及模型參數(shù)調(diào)節(jié),獲得初步模型;
對所述初步模型進(jìn)行評估,得到所述品種鑒定的預(yù)測模型。
2.根據(jù)權(quán)利要求1所述的構(gòu)建方法,其特征在于,對所述SNP數(shù)據(jù)集進(jìn)行預(yù)處理,得到SNP數(shù)據(jù)矩陣包括:
去除所述SNP數(shù)據(jù)集中存在缺失和/或最小等位基因頻率低于5%的SNP位點,得到有效SNP位點;
將m個樣本的總計n個所述有效SNP位點的基因型進(jìn)突變純合行數(shù)字編碼轉(zhuǎn)化,得到所述SNP數(shù)據(jù)矩陣m×n;
其中,野生純合基因型AA記為0,雜合基因型AB記為1,基因型BB記為2,m和n分別為自然數(shù),優(yōu)選為大于等于2的自然數(shù)。
3.根據(jù)權(quán)利要求1所述的構(gòu)建方法,其特征在于,對所述SNP數(shù)據(jù)矩陣進(jìn)行降維處理,得到SNP縮減集包括:
采用主成分分析法對所述SNP數(shù)據(jù)矩陣進(jìn)行降維處理,得到所述SNP縮減集;
優(yōu)選地,所述降維處理包括:
計算每個SNP位點在不同樣本間的協(xié)方差,形成協(xié)方差矩陣Tnxm,計算所述協(xié)方差矩陣的特征值和特征向量;
按所述特征值大小排序,當(dāng)?shù)趎1+1個特征值大小相比第n1個特征值大小顯著下降時,保留前n1個所述特征值的所述特征向量,n1為小于n的自然數(shù);
對保留下來的每個所述特征值對應(yīng)的所述特征向量里的元素值按絕對值大小進(jìn)行排序,并選擇每個所述特征值上排序靠前的預(yù)定數(shù)量個元素,每個所述元素未排序前的位置對應(yīng)SNP位點位置,從而獲得總數(shù)為n2個SNP位點的所述SNP縮減集,其中,n1≤n2<n。
4.根據(jù)權(quán)利要求1所述的構(gòu)建方法,其特征在于,在進(jìn)行模型訓(xùn)練及調(diào)節(jié)模型參數(shù)的步驟中,采用網(wǎng)格搜索的方法進(jìn)行調(diào)節(jié)。
5.根據(jù)權(quán)利要求1至4中任一項所述的構(gòu)建方法,其特征在于,對所述初步模型進(jìn)行評估,得到所述品種鑒定的預(yù)測模型包括:
將所述SNP縮減集分為訓(xùn)練集和測試集;
通過對所述訓(xùn)練集進(jìn)行五折交叉驗證,并在所述測試集上輸出AUC值的方式對所述初步模型進(jìn)行評估;
若評估結(jié)果符合預(yù)設(shè)標(biāo)準(zhǔn),則將所述初步模型作為所述預(yù)測模型;
若評估結(jié)果不符合所述預(yù)設(shè)標(biāo)準(zhǔn),則返回所述初步模型,重復(fù)執(zhí)行所述模型訓(xùn)練及模型參數(shù)調(diào)節(jié)步驟,直至所述評估結(jié)果符合所述預(yù)設(shè)標(biāo)準(zhǔn)。
6.根據(jù)權(quán)利要求5所述的構(gòu)建方法,其特征在于,所述構(gòu)建方法在得到所述品種鑒定的預(yù)測模型的同時,還包括:
對所述預(yù)測模型導(dǎo)出并存儲到集群路徑下,同時對所述預(yù)測模型返回的每個SNP位點的重要度進(jìn)行排序,并將每個SNP位點的重要度導(dǎo)出并存儲到所述集群路徑下。
7.一種品種鑒定的方法,其特征在于,所述方法包括:
將待鑒定樣本的SNP數(shù)據(jù)集依次進(jìn)行預(yù)處理及降維處理,得到待鑒定樣本的SNP縮減集;
將所述待鑒定樣本的SNP縮減集導(dǎo)入權(quán)利要求1至6中任一項所述的構(gòu)建方法所構(gòu)建的預(yù)測模型進(jìn)行預(yù)測,從而獲得待鑒定樣本所屬群體。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,
所述預(yù)處理按照權(quán)利要求2所述的構(gòu)建方法中的預(yù)處理步驟進(jìn)行;
所述降維處理按照權(quán)利要求3所述的構(gòu)建方法中的降維處理步驟進(jìn)行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京諾禾致源科技股份有限公司,未經(jīng)北京諾禾致源科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011119585.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時間序列預(yù)測模型適用性量化的預(yù)測模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測方法及裝置、預(yù)測模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測的方法及裝置
- 圖像預(yù)測方法及裝置、電子設(shè)備和存儲介質(zhì)
- 文本預(yù)測方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)





