[發(fā)明專利]基于有監(jiān)督上采樣學(xué)習(xí)的蛋白質(zhì)?核苷酸綁定位點(diǎn)預(yù)測方法有效
| 申請?zhí)枺?/td> | 201410223569.4 | 申請日: | 2014-05-25 |
| 公開(公告)號: | CN104077499B | 公開(公告)日: | 2018-01-05 |
| 發(fā)明(設(shè)計)人: | 於東軍;胡俊;何雪;李陽;沈紅斌;楊靜宇 | 申請(專利權(quán))人: | 南京理工大學(xué) |
| 主分類號: | G06F19/16 | 分類號: | G06F19/16 |
| 代理公司: | 南京理工大學(xué)專利中心32203 | 代理人: | 朱顯國 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 監(jiān)督 采樣 學(xué)習(xí) 蛋白質(zhì) 核苷酸 定位 預(yù)測 方法 | ||
1.一種基于有監(jiān)督上采樣學(xué)習(xí)的蛋白質(zhì)-核苷酸綁定位點(diǎn)預(yù)測方法,其特征在于,包括以下步驟:
步驟1:基于輸入的蛋白質(zhì)序列信息,進(jìn)行多視角特征抽取與特征組合,即分別使用PSI-BLAST算法抽取蛋白質(zhì)序列的進(jìn)化信息,利用PSIPRED算法抽取蛋白質(zhì)序列的二級結(jié)構(gòu)信息;然后利用滑動窗口方式與特征串行組合方式,將蛋白質(zhì)序列中的每個氨基酸殘基進(jìn)行多視角特征表示;
步驟2:根據(jù)訓(xùn)練數(shù)據(jù)集合中綁定核苷酸的氨基酸殘基與未綁定核苷酸的氨基酸殘基的不平衡分布情況,使用有監(jiān)督的上采樣學(xué)習(xí)方法對缺失的正樣本信息進(jìn)行補(bǔ)充,生成最終的訓(xùn)練樣本集合;
步驟3:使用標(biāo)準(zhǔn)的支持向量機(jī)模型,在步驟2所得到的訓(xùn)練樣本集合中訓(xùn)練產(chǎn)生蛋白質(zhì)-核苷酸綁定位點(diǎn)預(yù)測模型;以及
步驟4:對于每個待預(yù)測蛋白質(zhì)序列,首先通過步驟1的方式得到該蛋白質(zhì)序列中的每一個氨基酸殘基的多視角特征,然后使用步驟3中的蛋白質(zhì)-核苷酸綁定位點(diǎn)預(yù)測模型進(jìn)行綁定概率預(yù)測,概率高于指定閾值的氨基酸殘基被預(yù)測為綁定殘基;
其中,在所述步驟1中,按照下述步驟進(jìn)行多視角特征的抽取與串行組合:
①從進(jìn)化信息視角抽取蛋白質(zhì)氨基酸殘基的特征
對于一個含有l(wèi)個氨基酸殘基的蛋白質(zhì)序列P,首先通過PSI-BLAST算法計算獲取其位置特異性得分矩陣,該P(yáng)SSM矩陣是一個l行20列的矩陣,從而將蛋白質(zhì)一級結(jié)構(gòu)信息轉(zhuǎn)換為矩陣形式,表達(dá)如下:
其中:A、R、...、V表示20種常見氨基酸殘基,oi,j表示蛋白質(zhì)第i個氨基酸殘基在進(jìn)化過程中突變成20種常見氨基酸殘基中的第j種氨基酸殘基的可能性;
然后對進(jìn)行歸一化處理,使用如下公式(2)的sigmoid函數(shù)對上述中的每一個值進(jìn)行逐行標(biāo)準(zhǔn)化處理:
標(biāo)準(zhǔn)化后的PSSM,表達(dá)如下:
再次,對于蛋白質(zhì)序列P中的第i個氨基酸殘基,以PSSM中的第i行為中心,使用一個寬度為W的窗口,該窗口內(nèi)所有元素構(gòu)成第i個氨基酸殘基的PSSM特征矩陣,表達(dá)如下:
最后,將上述特征矩陣(4)按行優(yōu)先的組合方式形成維數(shù)為20×W的特征向量:
②從二級結(jié)構(gòu)視角抽取蛋白質(zhì)氨基酸殘基的特征
對于一個含有l(wèi)個氨基酸殘基的蛋白質(zhì)P,首先通過PSIPRED算法生成蛋白質(zhì)序列P的二級結(jié)構(gòu)矩陣,該矩陣大小為l×3,表達(dá)如下:
其中,C、H、E分別表示蛋白質(zhì)的三種二級結(jié)構(gòu),即coil、helix、strand,si,1表示蛋白質(zhì)P中第i個氨基酸殘基的二級結(jié)構(gòu)是coil的概率,si,2表示蛋白質(zhì)中第i個氨基酸殘基的二級結(jié)構(gòu)是helix的概率,si,3表示蛋白質(zhì)中第i個氨基酸殘基的二級結(jié)構(gòu)是strand的概率;
然后,使用上述同樣的寬度為W的滑動窗口與按行優(yōu)先的組合方式,將該窗口內(nèi)的所有元素形成一個維數(shù)為3×W的特征向量:
③將上述步驟得到的特征向量和特征向量串行組合,得到蛋白質(zhì)P中的第i個氨基酸殘基的特征向量,其維數(shù)為20×W+3×W;
重復(fù)上述①、②、③步驟,生成所有氨基酸殘基的特征向量;
其中,在所述步驟2中,使用所述有監(jiān)督的上采樣學(xué)習(xí)方法的具體實現(xiàn)包括以下步驟:
①對于原始樣本空間的數(shù)據(jù)S=S+∪S-,其中表示正樣本集合,表示負(fù)樣本集合,N+、N-分別表示正樣本集合與負(fù)樣本集合的樣本數(shù),前述正樣本是指綁定核苷酸的一個氨基酸殘基,負(fù)樣本是指未綁定核苷酸的一個氨基酸殘基;按照式(8)訓(xùn)練一個初始的預(yù)測模型Modelinit:
Modelinit=Train(S+∪S-)(8)
其中,Train(·)表示使用LIBSVM中的svm-train程序?qū)崿F(xiàn)的SVC分類方法訓(xùn)練預(yù)測模型;
②從正樣本集合S+中隨機(jī)選擇兩個正樣本使用式(9)構(gòu)造一個人工合成的樣本xnew:
其中,λ為0到1之間的隨機(jī)值,然后根據(jù)式(10),使用上述構(gòu)造的初始預(yù)測模型Modelinit對xnew進(jìn)行預(yù)測,得到xnew被式(10)預(yù)測為正樣本的概率P(xnew):
P(xnew)=Predict(Modelinit,xnew)(10)
這里Predict(·)表示應(yīng)用LIBSVM中的svm-predict程序使用Modelinit預(yù)測xnew為正樣本的概率;P(xnew)為0到1之間的值;
③根據(jù)上述得到的預(yù)測概率P(xnew)對xnew能否加入正樣本集合進(jìn)行判斷,如果P(xnew)∈[0.7,0.9],則可以將加入到正樣本集合S+,如果P(xnew)>0.9,則認(rèn)為在S+中可以找到xnew的近似樣本,為了防止最終預(yù)測模型的過擬合情況,所以將xnew丟棄,如果P(xnew)<0.7,則認(rèn)為xnew樣本為正樣本的可信度不高,為了防止加入噪音樣本,所以將xnew丟棄;
④重復(fù)上述①、②、③三個步驟直至|S+|=β|S-|,其中|S+|表示S+樣本集合的樣本數(shù)目,|S-|表示S-樣本集合的樣本數(shù)目,β表示正樣本數(shù)目與負(fù)樣本數(shù)目的比率,β的值為0到1之間的值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410223569.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計算機(jī)視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機(jī)視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





