[發明專利]一種基于遺傳群體組裝基因組的方法、裝置及存儲介質有效
| 申請號: | 202011551921.9 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112562786B | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 鄧秀新;王楠;宋謝天;周銀;葉俊麗 | 申請(專利權)人: | 華中農業大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G06N3/12 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 蔣杰 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遺傳 群體 組裝 基因組 方法 裝置 存儲 介質 | ||
1.一種基于遺傳群體組裝基因組的方法,其特征在于,包括如下步驟:
導入待質量提升基因組信息以及雜交群體父母本及子代的基因組遺傳信息和遺傳圖譜信息;
對所述待質量提升基因組信息中的多個基因組信息進行類型劃分,將序列定位到染色體的基因組信息劃分到第一組別中,將序列未定位到染色體的基因組信息劃分到第二組別中,具體為:將基因組類型為純合基因組和雜合基因組劃分到第一組別中,將基因組類型為未知基因組劃分到第二組別中;
基于機器學習算法建立第一算法模型,并對所述基因組遺傳信息進行編碼處理,通過編碼后的基因組遺傳信息訓練所述第一算法模型,得到訓練模型;其中,所述對基因組遺傳信息進行編碼處理的過程包括:
對所述基因組遺傳信息中的多個基因組類型進行標記,若基因組類型為純合基因組,則對基因組類型編碼為0,若基因組類型為雜合基因組,則對基因組類型編碼為1,若基因組類型為未知基因組,則對基因組類型編碼為0.5;
所述基于機器學習算法建立第一算法模型的過程包括:
配置所述第一算法模型的采樣參數,根據所述采樣參數建立第一算法模型,其中,所述第一算法模型為支持向量機的非線性分類模型,所述第一算法模型用于以預處理后的訓練集為輸入并以染色體編號為學習目標,進行輸出訓練;其中,所述采樣參數為隨機劃分所述編碼后的基因組遺傳信息,劃分比例為4:1,采用不放回隨機采樣方式,且采樣比例為0.1;
將所述第二組別導入所述訓練模型中,得到所述第二組別中序列未比對到染色體的各個基因組信息對應的染色體信息;
基于機器學習算法分別建立與各個所述染色體信息對應的第二算法模型,并對所述遺傳圖譜信息進行編碼處理,通過編碼后的遺傳圖譜信息訓練各個所述第二算法模型,通過各個經訓練的第二算法模型對所述第二組別進行預測,得到基因組與對應染色體的遺傳距離;其中,對所述遺傳圖譜信息進行編碼處理:
對所述遺傳圖譜信息的多個圖譜類型進行標記,若圖譜類型為純合基因型,則對圖譜類型編碼為0,若圖譜類型為雜合基因型,則對圖譜類型編碼為1,若圖譜類型為未知基因型,則對圖譜類型編碼為0.5;
根據所述遺傳距離確定所述第二組別中各個基因組在對應染色體上的位置,根據位置信息得到質量提升基因組信息。
2.根據權利要求1所述的基于遺傳群體組裝基因組的方法,其特征在于,所述基于機器學習算法分別建立與各個所述染色體信息對應的第二算法模型,其過程包括:
配置各個第二算法模型的采樣參數,根據所述采樣參數建立各個第二算法模型,其中,所述第二算法模型為支持向量機的線性回歸模型,所述第二算法模型用于以所述編碼后的遺傳圖譜信息為輸入并以遺傳距離為學習目標,進行輸出訓練;其中,所述采樣參數為隨機劃分所述編碼后的遺傳圖譜信息,劃分比例為4:1,采用全采樣方式。
3.根據權利要求2所述的基于遺傳群體組裝基因組的方法,其特征在于,所述通過各個經訓練的第二算法模型對所述第二組別進行預測,得到基因組與對應染色體的遺傳距離,其過程包括:
根據各個染色體信息確定第二組別中序列未定位到染色體的各個基因組信息與經訓練的第二算法模型的對應關系,并根據所述對應關系將序列未定位到染色體的各個基因組信息分別輸入至對應經訓練的第二算法模型中,通過經訓練的第二算法模型預測基因組與對應染色體的遺傳距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中農業大學,未經華中農業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011551921.9/1.html,轉載請聲明來源鉆瓜專利網。





