[發明專利]交互融合特征表示與選擇性集成的DNA結合蛋白識別方法有效
| 申請號: | 201710731309.1 | 申請日: | 2017-08-23 |
| 公開(公告)號: | CN107463799B | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 游文杰;陳芳;甘勝進 | 申請(專利權)人: | 福建師范大學福清分校 |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G16B40/00 |
| 代理公司: | 35001 福州科揚專利事務所 | 代理人: | 何小星 |
| 地址: | 350300 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 交互 融合 特征 表示 選擇性 集成 dna 結合 蛋白 識別 方法 | ||
本發明涉及交互融合特征表示與選擇性集成的DNA結合蛋白識別方法。相比于現有的方法,本發明的方法具有更加卓越的性能,這也間接表明本發明的交互融合特征表示能夠生成攜帶有強判別信息的特征,同時選擇性集成還能進一步提升整體學習器的泛化能力,最終能夠保證對DNA結合蛋白的準確預測。
技術領域
本發明涉及生物學與信息學交叉領域,特別是涉及一種利用機器學習預測DNA結合蛋白的方法。
背景技術
DNA結合蛋白在各種細胞過程中發揮著極其重要的作用,在理解和解釋蛋白質功能中,識別DNA結合蛋白是一個非常重要的任務。從蛋白質序列(一級結構)出發,利用機器學習方法對蛋白質的結構和功能進行預測,是目前生物信息學研究的熱點問題,也是一種重要研究手段。
基于機器學習的DNA結合蛋白的預測方法有兩大類:基于蛋白質結構的預測;基于蛋白質序列的預測。基于蛋白質結構預測DNA結合蛋白能得到較高的識別率,然而,由于沒有足夠的蛋白質結構信息,這類方法無法被廣泛應用在高通量序列的詮釋中。因此,目前的方法更多的是基于氨基酸序列的蛋白質功能預測。大量實驗已經表明,蛋白質一級結構(氨基酸殘基排列順序)或多肽相似,其折疊后的空間構象與其功能也很相似,基于這個事實,利用蛋白質序列預測蛋白質功能,包含兩個主要過程:1)提取蛋白質序列中包含的生物信息,把蛋白質序列轉化為相應的特征向量;2)利用得到的特征向量,使用機器學習中的算法,進行模型訓練并對未知序列做功能識別。
在已過的幾十年間,基于蛋白質序列的有效特征表示方法,主要包括有:1)基于氨基酸組成的方法,這類方法考慮了相鄰的且連續的氨基酸殘基間的信息;2)基于偽氨基酸組成的方法,這類方法考慮了非相鄰(不連續)氨基酸殘基間的信息;以及3)基于蛋白質頻率譜的方法,這類方法考慮了蛋白質的進化信息。基于氨基酸組成方法(AAC),使用序列的統計信息,如常用的k-mers方法,這類方法簡單,但所生成特征維數較高(20k),存在維災和過擬合問題。基于偽氨基酸組成方法,由Kuo-chen Chou提出并命名為PseAAC,它考慮了序列的局部順序和全局順序,能夠較好的表達序列中的順序與位置信息,該方法能將序列的位置信息映射到所生成特征向量中。基于蛋白質頻率譜的方法,使用攜帶有進化信息的位置特異性得分矩陣(PSSM:Position Specific Scoring Matrix),該矩陣表達了與其比對序列相關的同源物信息。
研究表明進化信息、物化屬性以及序列的結構與位置等信息,對DNA結合蛋白的識別均具有一定的作用。如果僅僅采用氨基酸組成信息或者蛋白質頻率譜等單個信息的特征表示方法,所生成識別特征都顯得過于單一。目前在相關文獻中主流的做法是,考慮不同的屬性(如不同的蛋白質物化屬性)和信息(如進化信息與結構信息等),并對這些方法生成的特征向量進行組合,所生成的高維特征向量作為后繼分類器的輸入。我們把這類方法稱為組合式融合特征表示(CFFR:Combined Fusion Feature Representation),它將氨基酸的物化屬性、進化信息的頻率譜以及序列信息(相鄰和不相鄰殘基信息)進行組合,能夠取得不錯的預測性能。然而,這類方法把物化屬性與進化信息等均視為彼此獨立的特征進行組合,忽略了它們之間還應該存在著交互效應,并且利用這種交互效應能夠更進一步提高DNA結合蛋白的預測性能。
發明內容
傳統的特征表示把不同方法生成的特征,視為彼此獨立的特征進行組合,忽略了這些特征之間還應該存在著交互效應。為了提高對DNA結合蛋白的預測能力,針對蛋白質序列數據,本發明提出交互融合的特征表示與選擇性集成分類器:交互融合的特征表示,能夠考慮物化屬性與進化信息之間的交互效應,和非相鄰殘基間的位置信息,充分挖掘隱藏在蛋白質序列背后的潛在的生物信息,生成具有強判別能力的特征;選擇性集成分類器,是通過對特征表示的參數進行擾動,生成不同的輸入特征空間,并使用選擇(或修剪)策略得到具有差異性的基分類器,投票集成得到具有強泛化能力的整體分類器。本發明能夠顯著提高對DNA結合蛋白的預測能力,同時本發明的特征表示也有利于從交互作用的視角去理解DNA結合蛋白在細胞中的功能與作用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建師范大學福清分校,未經福建師范大學福清分校許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710731309.1/2.html,轉載請聲明來源鉆瓜專利網。





