[發明專利]聯合attention機制與神經網絡的生物醫學實體關系分類方法在審
| 申請號: | 201810554915.5 | 申請日: | 2018-06-01 |
| 公開(公告)號: | CN108875809A | 公開(公告)日: | 2018-11-23 |
| 發明(設計)人: | 林鴻飛;鄭巍 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 劉斌 |
| 地址: | 116023 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生物醫學 實體關系 分類 神經網絡 構建 向量 單詞 句子 解析 數據挖掘技術 分類模型 分類問題 關系分類 候選實體 基本單位 模型輸入 文本處理 重要影響 權重 加權 嵌入 聯合 清晰 | ||
一種聯合attention機制與神經網絡的生物醫學實體關系分類方法,屬于生物醫學和數據挖掘技術領域,用以解決生物醫學實體關系分類問題,要點是包括S1、基于指代解析的文本處理;S2、構建基于attention機制的模型輸入向量;S3、構建基于雙向LSTM的生物醫學實體關系分類模型;S4、利用關系分類模型進行生物醫學實體關系分類。本發明針對生物文獻中的句子設計了基于following的指代解析,然后從構成句子的基本單位單詞出發,利用attention機制加權于單詞的嵌入向量,突出對生物醫學實體關系分類有重要影響的關鍵詞的權重,使候選實體間的關系更清晰明了,進行生物醫學實體關系分類。
技術領域
本發明涉及生物醫學和數據挖掘技術領域,尤其是一種聯合attention機制與神經網絡的生物醫學實體關系分類方法。
背景技術
隨著數據驅動的生物信息學的發展,通過計算方法發現和預測生物醫學實體間的關系成為一種趨勢?;谟嬎愕奈谋就诰蚍椒軓拇罅靠捎玫纳飻祿旌头墙Y構化文本中發現模式和知識。目前,海量的最新的非結構化數據隱藏在專業數據庫或科學文獻里。于是,利用文本挖掘技術從文獻和數據庫中檢測和預測生物醫學實體關系是一條有效且可行的途徑。此外,這也能自動化實現由手工完成的數據庫標注過程,還有助于生物醫學圖譜的構建。
傳統的從文本中挖掘生物醫學實體關系研究主要利用統計機器學習理論中的機器學習方法如支持向量機SVM。這些方法依賴于精心設計的核或者仔細設計的特征。特征的設計需要領域專家,而且還是一個以反復實驗為基礎的勞動密集型的技巧性工作。此外,這些方法對未遇見詞的泛化能力有限。當前,基于神經網絡的方法能夠通過構建簡單的非線性模型自動地學習非結構化文本的多級別表示,在自然語言處理領域的各項任務里已經顯示了它的潛力。目前有兩個主要的神經網絡架構即卷積神經網絡和循環神經網絡。前者更適用于學習連續的局部模式。后者雖然可學習不連續的全局模式,但其具有偏置特性,即后輸入的信息對目標更占優勢。
然而,由于生物醫學文獻文本一般長句且復雜叢句居多,而且具有科學語言的特性。而且,對最終關系重要的詞卻并不一定出現在句子的后部。雖然上述的不同文本挖掘方法探索了各種方法分類生物醫學實體間的交互關系,但是在長復雜句居多的生物醫學實體交互分類性能上還不是很令人滿意。
發明內容
本發明的目的是提供一種基于attention機制的神經網絡架構對生物醫學文獻中已標注實體間的關系進行更為準確且有效地關系分類方法。
本發明解決現有技術問題所采用的技術方案:一種聯合attention機制與神經網絡的生物醫學實體關系分類方法,包括以下步驟:
S1、基于指代解析的文本處理:采集公開已標注的數據集,利用文本處理技術、指代解析和剪枝技術對句子進行處理,其處理方法如下:
A1、初始處理:一個特殊的符號代替不屬于生物醫學實體子串的數字子串。刪除不包含候選實體的括號;為了方法的泛化,所有的生物醫學實體用entity*代替,其中*表示0,1,2,…;刪除僅僅包含一個實體的句子或者兩個實體具有同樣符號的句子;
A2、基于following的指代處理解析:對于生物文獻文本中帶有冒號“:”的包含“following[指代詞]”的句子模式,如果候選對中的兩個實體分別位于冒號“:”的兩邊,利用如下的規則進行替換,其中[w]*表示一個或多個單詞符號:
句型1:entity1[w]*following[cataphora word]:[w]*entity2[w]*.
規則1:entity1[w]*following entity2.
句型2:[w]*following[cataphora word][w]*entity2:[w]*entity1[w]*.
規則2:[w]*following entity1[w]*entity2.
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810554915.5/2.html,轉載請聲明來源鉆瓜專利網。





