[發(fā)明專利]基于集成學習的全球人類mtDNA發(fā)育樹分類查詢方法有效
| 申請?zhí)枺?/td> | 201711426265.8 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108052796B | 公開(公告)日: | 2021-07-13 |
| 發(fā)明(設(shè)計)人: | 周維;彭旻晟;賈俊燕;王文智;向文坤;張亞平 | 申請(專利權(quán))人: | 云南大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/30;G16B30/10;G16B40/00;G06F16/28;G06K9/62 |
| 代理公司: | 成都行之專利代理事務(wù)所(普通合伙) 51220 | 代理人: | 溫利平;陳靚靚 |
| 地址: | 650091*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 集成 學習 全球 人類 mtdna 發(fā)育 分類 查詢 方法 | ||
本發(fā)明公開了一種基于集成學習的全球人類mtDNA發(fā)育樹分類查詢方法,采用人工測得的mtDNA數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)分類器,采用mtDNA發(fā)育樹數(shù)據(jù)計算樸素貝葉斯分類器的參數(shù),將待分類查詢的mtDNA的變異位點序列輸入神經(jīng)網(wǎng)絡(luò)分類器,得到前Q個可能分類,將待分類查詢的mtDNA的變異位點序列和前Q個可能分類的所對應(yīng)的變異位點序列合并得到樸素貝葉斯分類器的輸入變異位點序列,并計算得到該輸入變異位點序列中各個變異位點的權(quán)重,通過樸素貝葉斯分類器得到前Q個可能分類,然后將兩組Q個可能分類的概率進行加權(quán),得到前Q個可能分類作為最終分類結(jié)果。本發(fā)明綜合利用神經(jīng)網(wǎng)絡(luò)分類器和樸素貝葉斯分類器的優(yōu)勢,提高了全球人類mtDNA發(fā)育樹分類查詢的正確率。
技術(shù)領(lǐng)域
本發(fā)明屬于機器學習技術(shù)領(lǐng)域,更為具體地講,涉及一種基于集成學習的全球人類mtDNA發(fā)育樹分類查詢方法。
背景技術(shù)
我國是一個人口眾多的國家,基于這樣的大國基數(shù),并且在歷史的長河中各地域不斷的交流融合,以及基于地緣關(guān)系的隔離和遷徙,逐漸形成了我國多民族的人口特色,為研究者提供了豐富多樣的基因?qū)殠臁5侨绾卫眠@樣的基因?qū)殠靵硌芯咳祟惼鹪矗w徙,發(fā)展以及遺傳結(jié)構(gòu)是我們面臨的一個問題。對于各族的起源、遷徙和進化的研究不僅是大的科學問題,還涉及到對各自民族的自我認同,都具有重要的人文內(nèi)涵。
從生物學角度來說,不同種族、不同民族、同一個種族但不屬于同一群體之間的差別,其實也可以說成是DNA分子的不同。原因在于線粒體基因組(mtDNA)的改變速度比核DNA快10~20倍,并且具有母系遺傳、缺乏重組、mtDNA分子呈環(huán)狀結(jié)構(gòu)、不易分解等特點,所以可以通過分析這些差異來探討不同人群的源流和遷移情況,而mtDNA也是在探討不同人群間的血緣關(guān)系和不同人群內(nèi)遺傳分化的一個好的遺傳標識。
二十世紀末,隨著專家對起源問題的深入研究,mtDNA問題逐漸進入了相關(guān)學者的視野。mtDNA主要有三個特點:母系遺傳方式嚴謹、重組方式缺乏、基于群體變異程度大。基于這樣的特點,mtDNA為研究人員提供了很好的遺傳標記,從而為人類親緣關(guān)系和群體內(nèi)遺傳分化的研究提供了標記基礎(chǔ),進一步推動了這方面的研究。在進入二十一世紀后,研究人員展開了對全球不同國家不同民族的mtDNA序列的分析。基于PCR技術(shù)和DNA序列測定技術(shù),如何發(fā)掘未知mtDNA信息并且快速地找到個體的mtDNA信息在全球人類mtDNA進化樹上所屬的分類也顯得至關(guān)重要。
就目前的全球人類mtDNA發(fā)育樹分類查詢方法而言,由于算法設(shè)計的問題,其正確率較低,難以滿足實際所需,并且無法更新數(shù)據(jù),實用性不足。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于集成學習的全球人類mtDNA發(fā)育樹分類查詢方法,綜合利用神經(jīng)網(wǎng)絡(luò)分類器和樸素貝葉斯分類器的優(yōu)勢,提高分類查詢的準確率。
為實現(xiàn)上述發(fā)明目的,本發(fā)明基于集成學習的全球人類mtDNA發(fā)育樹分類查詢方法,包括以下步驟:
S1:人工測得若干mtDNA數(shù)據(jù),每條數(shù)據(jù)包含mtDNA的變異位點序列及對應(yīng)的最有可能的分類,然后獲取全球人類mtDNA發(fā)育樹數(shù)據(jù),包括分類信息及每個分類對應(yīng)的mtDNA變異位點序列;
S2:采用mtDNA數(shù)據(jù)中的變異位點序列作為輸入,對應(yīng)分類作為期望輸出,訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)分類器;
S3:采用mtDNA發(fā)育樹數(shù)據(jù)計算得到樸素貝葉斯分類器的參數(shù),包括第i個分類targeti出現(xiàn)的概率P(targeti)、第j個變異位點mutationj在第i個分類targeti中出現(xiàn)的概率P(mutationj|targeti),i=1,2,…,T,T表示分類數(shù)量,j=1,2,…,M,M表示變異位點數(shù)量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云南大學,未經(jīng)云南大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711426265.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:齒輪齒條中心驅(qū)動的多層樓房用電梯
- 下一篇:一種組裝式欄桿
- 驗證應(yīng)用程序全球化問題的系統(tǒng)和方法及計算機產(chǎn)品
- 一種具備全球定位系統(tǒng)的移動通信終端機
- 全球評論板系統(tǒng)及其實現(xiàn)方法
- 信道間偏差校正方法以及全球?qū)Ш叫l(wèi)星系統(tǒng)接收器
- 用于全球轉(zhuǎn)移的系統(tǒng)和方法
- 一種適合全球各國企業(yè)共用的國際電子商務(wù)平臺
- 顯示全球定位系統(tǒng)信號強弱的方法、終端及計算機可讀介質(zhì)
- 面向全球聯(lián)網(wǎng)的電力格局構(gòu)建方法
- 用于全球轉(zhuǎn)移的系統(tǒng)和方法
- 全球組網(wǎng)協(xié)同星座應(yīng)急調(diào)度方法





