[發(fā)明專利]一種基于混合分類器來識別耳聾相關(guān)基因的方法在審
| 申請?zhí)枺?/td> | 202011497263.X | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112599190A | 公開(公告)日: | 2021-04-02 |
| 發(fā)明(設(shè)計)人: | 劉曉;任美香;何婷;羅雅川;徐玉橋;左汶奇;鐘時勛 | 申請(專利權(quán))人: | 重慶大學 |
| 主分類號: | G16B20/20 | 分類號: | G16B20/20;G16B20/50;G16B30/10;G16B40/00;G06N3/08;G06K9/62;G06N20/10 |
| 代理公司: | 北京同恒源知識產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400044 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 混合 分類 識別 耳聾 相關(guān) 基因 方法 | ||
1.一種基于混合分類器來識別耳聾相關(guān)基因的方法,其特征在于:該方法包括以下步驟:
S1:數(shù)據(jù)收集與融合;
S2:樣本的特征提取與預(yù)處理;
S3:將S2中預(yù)處理后的帶有標簽的樣本分別對反向傳播神經(jīng)網(wǎng)絡(luò)分類器、支持向量機分類器、決策樹分類器和隨機森林分類器進行訓(xùn)練;
S4:選擇BPNN分類器和SVM分類器;
S5:將未標記的樣本在S4中訓(xùn)練好的分類器進行預(yù)測,得到預(yù)測結(jié)果為RBPNN、RSVM;
S6:判斷兩個分類器的預(yù)測結(jié)果,每個分類器實驗A次,兩個分類器的預(yù)測耳聾相關(guān)基因的次數(shù)分別為ABPNN、ASVM,設(shè)置一個候選耳聾相關(guān)基因的閾值T1,若ABPNN≥T1且ASVM≥T1,則為候選耳聾相關(guān)基因,將兩個分類器預(yù)測為候選耳聾相關(guān)基因的次數(shù)加起來計為S,根據(jù)多次實驗設(shè)置一個閾值T,當S≥T時,則這個基因即為可疑耳聾相關(guān)基因,最后對S的大小進行排序,選出排序最前k個基因作為高可疑耳聾相關(guān)基因。
2.根據(jù)權(quán)利要求1所述的一種基于混合分類器來識別耳聾相關(guān)基因的方法,其特征在于:所述S1具體為:
數(shù)據(jù)收集:用于模型訓(xùn)練、驗證的耳聾相關(guān)基因數(shù)據(jù)來源于兩個數(shù)據(jù)庫,即耳聾變異數(shù)據(jù)庫DVD v8.2和NCBI數(shù)據(jù)庫;從DVD數(shù)據(jù)庫中提取149個耳聾相關(guān)的基因,從NCBI上下載基因所對應(yīng)的基因編碼序列和蛋白質(zhì)序列;
數(shù)據(jù)融合:
正集:將耳聾相關(guān)基因名稱與基因編碼序列、蛋白質(zhì)序列進行匹配,刪除重復(fù)的序列,構(gòu)成正集數(shù)據(jù),共463個基因編碼序列和463個蛋白質(zhì)序列;
負集:從人類基因中去除掉耳聾相關(guān)基因?qū)?yīng)的序列,接著隨機取出1490個基因所對應(yīng)的基因編碼序列和蛋白質(zhì)序列,共有3783個編碼DNA序列和3783個蛋白質(zhì)序列;每次實驗從中隨機選取與正集相同數(shù)量的樣本構(gòu)成負集,使得正集:負集=1:1;該1490個基因與耳聾基因無關(guān);
待測數(shù)據(jù)集:為驗證模型的準確性和有效性,從Web of science和EI數(shù)據(jù)庫中的文獻中搜集到的跟耳聾相關(guān)的基因62個,共172個基因編碼序列和蛋白質(zhì)序列,獲取他們序列的特征,并將所得到的特征集作為待預(yù)測特征集,用訓(xùn)練好的模型對他們進行分類,看分類效果;
將數(shù)據(jù)集按訓(xùn)練集:驗證集:測試集=6:2:2的比例分開,正負比例1:1的訓(xùn)練集用來訓(xùn)練模型;
數(shù)據(jù)集為正集P時,基因數(shù)為149,基因編碼序列數(shù)為463,蛋白質(zhì)序列數(shù)為463,樣本數(shù)為463;
數(shù)據(jù)集為負集N時,基因數(shù)為143,基因編碼序列數(shù)為463,蛋白質(zhì)序列數(shù)為463,樣本數(shù)為463;
數(shù)據(jù)集為待預(yù)測數(shù)據(jù)集時,基因數(shù)為62,基因編碼序列數(shù)為172,蛋白質(zhì)序列數(shù)為172,樣本數(shù)為172。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學,未經(jīng)重慶大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011497263.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





