[發(fā)明專利]一種基于混合分類器來識別耳聾相關(guān)基因的方法在審

申請?zhí)枺?/td>	202011497263.X	申請日：	2020-12-17
公開（公告）號：	CN112599190A	公開（公告）日：	2021-04-02
發(fā)明（設(shè)計）人：	劉曉;任美香;何婷;羅雅川;徐玉橋;左汶奇;鐘時勛	申請（專利權(quán)）人：	重慶大學
主分類號：	G16B20/20	分類號：	G16B20/20;G16B20/50;G16B30/10;G16B40/00;G06N3/08;G06K9/62;G06N20/10
代理公司：	北京同恒源知識產(chǎn)權(quán)代理有限公司 11275	代理人：	趙榮之
地址：	400044 重***	國省代碼：	重慶;50
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于混合分類識別耳聾相關(guān) 基因方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于混合分類器來識別耳聾相關(guān)基因的方法，其特征在于：該方法包括以下步驟：

S1：數(shù)據(jù)收集與融合；

S2：樣本的特征提取與預(yù)處理；

S3：將S2中預(yù)處理后的帶有標簽的樣本分別對反向傳播神經(jīng)網(wǎng)絡(luò)分類器、支持向量機分類器、決策樹分類器和隨機森林分類器進行訓(xùn)練；

S4：選擇BPNN分類器和SVM分類器；

S5：將未標記的樣本在S4中訓(xùn)練好的分類器進行預(yù)測，得到預(yù)測結(jié)果為R_BPNN、R_SVM；

S6：判斷兩個分類器的預(yù)測結(jié)果，每個分類器實驗A次，兩個分類器的預(yù)測耳聾相關(guān)基因的次數(shù)分別為A_BPNN、A_SVM，設(shè)置一個候選耳聾相關(guān)基因的閾值T₁，若A_BPNN≥T₁且A_SVM≥T₁，則為候選耳聾相關(guān)基因，將兩個分類器預(yù)測為候選耳聾相關(guān)基因的次數(shù)加起來計為S，根據(jù)多次實驗設(shè)置一個閾值T，當S≥T時，則這個基因即為可疑耳聾相關(guān)基因，最后對S的大小進行排序，選出排序最前k個基因作為高可疑耳聾相關(guān)基因。

2.根據(jù)權(quán)利要求1所述的一種基于混合分類器來識別耳聾相關(guān)基因的方法，其特征在于：所述S1具體為：

數(shù)據(jù)收集：用于模型訓(xùn)練、驗證的耳聾相關(guān)基因數(shù)據(jù)來源于兩個數(shù)據(jù)庫，即耳聾變異數(shù)據(jù)庫DVD v8.2和NCBI數(shù)據(jù)庫；從DVD數(shù)據(jù)庫中提取149個耳聾相關(guān)的基因，從NCBI上下載基因所對應(yīng)的基因編碼序列和蛋白質(zhì)序列；

數(shù)據(jù)融合：

正集：將耳聾相關(guān)基因名稱與基因編碼序列、蛋白質(zhì)序列進行匹配，刪除重復(fù)的序列，構(gòu)成正集數(shù)據(jù)，共463個基因編碼序列和463個蛋白質(zhì)序列；

負集：從人類基因中去除掉耳聾相關(guān)基因?qū)?yīng)的序列，接著隨機取出1490個基因所對應(yīng)的基因編碼序列和蛋白質(zhì)序列，共有3783個編碼DNA序列和3783個蛋白質(zhì)序列；每次實驗從中隨機選取與正集相同數(shù)量的樣本構(gòu)成負集，使得正集：負集＝1：1；該1490個基因與耳聾基因無關(guān)；

待測數(shù)據(jù)集：為驗證模型的準確性和有效性，從Web of science和EI數(shù)據(jù)庫中的文獻中搜集到的跟耳聾相關(guān)的基因62個，共172個基因編碼序列和蛋白質(zhì)序列，獲取他們序列的特征，并將所得到的特征集作為待預(yù)測特征集，用訓(xùn)練好的模型對他們進行分類，看分類效果；

將數(shù)據(jù)集按訓(xùn)練集：驗證集：測試集＝6:2:2的比例分開，正負比例1:1的訓(xùn)練集用來訓(xùn)練模型；

數(shù)據(jù)集為正集P時，基因數(shù)為149，基因編碼序列數(shù)為463，蛋白質(zhì)序列數(shù)為463，樣本數(shù)為463；

數(shù)據(jù)集為負集N時，基因數(shù)為143，基因編碼序列數(shù)為463，蛋白質(zhì)序列數(shù)為463，樣本數(shù)為463；

數(shù)據(jù)集為待預(yù)測數(shù)據(jù)集時，基因數(shù)為62，基因編碼序列數(shù)為172，蛋白質(zhì)序列數(shù)為172，樣本數(shù)為172。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學，未經(jīng)重慶大學許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011497263.X/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】