[發明專利]基于文本關系相似性的蛋白質交互關系識別方法有效
| 申請號: | 201510020404.1 | 申請日: | 2015-01-15 |
| 公開(公告)號: | CN104537280B | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 牛耘;王宇偉;吳紅梅;魏歐 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 南京鐘山專利代理有限公司32252 | 代理人: | 戴朝榮 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 關系 相似性 蛋白質 交互 識別 方法 | ||
技術領域
本發明涉及生物醫學文獻中蛋白質交互關系的自動識別方法,具體來說涉及一種基于文本關系相似性的蛋白質交互關系識別方法。
背景技術
蛋白質是生物細胞最重要的成分。蛋白質作為生命活動的體現者并非孤立存在,它們通過彼此間的作用完成細胞中的大部分過程。蛋白質之間的交互信息Protein-Protein Interaction,PPI對于理解單個蛋白質的功能作用以及整個生物過程是至關重要的,是生物學研究的重要內容,也是解決大量醫學難題的關鍵信息。因而描述蛋白質之間交互關系Protein-Protein Interactions,PPI的網絡的建立一直是研究生物過程關注的核心問題,對于生物學研究具有重要意義。因此生物領域專家手工地從醫學文獻中提取了眾多的PPI并錄入到統一格式的數據庫中,如BIND,DIP,HPRD,IntAct和MINT等等。然而大量的蛋白質交互信息仍散布在以非格式化文本形式存儲的科技文獻中,并且文獻的數目在急劇地增長。依靠手工搜尋提取這些蛋白質交互信息的方式顯然不能滿足實際需要。因而如何從文獻中自動挖掘出蛋白質交互信息成為重要的課題要并且吸引了大量的研究。研究的主要任務是根據生物醫學文獻中的線索識別存在交互關系的蛋白質對。識別出的交互關系將用于PPI網絡的建立。
從文獻中自動挖掘蛋白質交互信息的方法涵蓋了簡單的同現分析到更為復雜的自然語言處理系統,大體可以分為以下三類。
第一類根據蛋白質的同現co-occurrence情況制定策略進行分析。基于同現的方法根據蛋白質在文本中出現位置的相近信息,通過計算兩個蛋白質的共現次數來推斷它們之間的交互作用。這種方法基于這樣的假設:如果兩個蛋白質實體經常出現在同一個句子或摘要中,它們則存在某種關系。就是蛋白質實體出現的位置越近、越經常在一起出現則越可能相關,基于這樣的假設可通過統計同現頻率計算出蛋白質實體存在關系的可能性。
基于共現的PPI識別方法的主要不足是由于蛋白質的同現關系并不一定對應交互關系,這種方法只能抽取已出現的PPI,而不能發現新出現的或較少出現的PPI。而且這種方法沒有充分分析包含目標蛋白質對的上下文對非交互關系進行過濾,這樣所得結果中會有大量的誤報,因而這種方法的識別的精度通常不高。
第二類方法通過建立能夠刻畫蛋白質交互關系的模式,將其作為規則來尋找蛋白質交互信息。模式匹配法是PPI關系抽取研究的一種主要方法。首先根據蛋白質交互在句子中的常用描述方式建立一組模式。一個模式或規則通常由單詞和詞性的序列組成,其中標出了形成交互關系的兩個蛋白質的位置。抽取PPI時,通過文本匹配尋找對應的交互信息,如果一個模式與一個句子相匹配,則提取出句中相應位置的蛋白質作為存在交互關系的蛋白質對。
Madkour等提出一個BioNoculars系統基于圖互增理論使用冗余數據構建領域無關的模板來抽取蛋白質交互關系。這種方法需要手工編寫規則,需大量的人力和時間。基于模式匹配的方法有助于提高PPI識別的精確度,然而由于模式集規模的限制導致基于規則或模式的方法明顯地降低了召回率。為了減輕手工制定模式的負擔,一些系統設計了自動模式獲取的算法。比如。Huang等人提出了一種從語料中自動獲取模式的方法和一種基于動態規劃的匹配算法,該方法將句子對齊,然后把句子中相似的部分提取出來作為抽取蛋白質交互關系的規則。自動建立的模式盡管能夠增加模式的數量,然而生成模式的質量仍無法滿足高精度交互關系識別的要求。
基于模式匹配的方法存在很大的局限性,其性能依賴于模式的數量和質量而且它無法抽取跨句子的實體關系。由于文本中蛋白質交互關系描述語言的多樣性和句法結構的復雜性,簡單的句法模式難以處理復雜的句子。同時人工建立簡單的模式因其有限的覆蓋面導致較低的召回率,而構造復雜模式的過程則又需要花費大量時間。另外,基于模式匹配的方法在未知關鍵詞的情況下不能生成新的模式規則,從而限制了蛋白質關系抽取的可拓展性,一旦規則集的大小達到了一定的規模,便很難將新規則加入現有的規則集。而且當關系抽取系統被應用到新領域的時候,基于規則的方法可能需要預先定義重新制定整個模式規則集以適應新的領域,從而降低了系統的可移植性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510020404.1/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





