[發明專利]一種融入外部知識的生物醫療關系抽取方法有效
申請號: | 202110367973.9 | 申請日: | 2021-04-06 |
公開(公告)號: | CN112860904B | 公開(公告)日: | 2022-02-22 |
發明(設計)人: | 王春宇;張浩;梁天銘;劉曉燕;劉國軍;郭茂祖 | 申請(專利權)人: | 哈爾濱工業大學 |
主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/205;G06F40/30 |
代理公司: | 哈爾濱華夏松花江知識產權代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 融入 外部 知識 生物 醫療 關系 抽取 方法 | ||
一種融入外部知識的生物醫療關系抽取方法,涉及自然語言處理技術領域,針對遠程監督技術的訓練數據存在噪聲干擾的問題,本申請提出的生物醫療實體關系抽取方法,更為充分的利用句子間和句子內部豐富的語義信息和結構信息以及生物醫療實體在外部知識庫中的信息,降低數據集中存在的噪聲干擾,使得模型更為穩定,能得到更為準確的關系預測。
技術領域
本發明涉及自然語言處理技術領域,具體為一種融入外部知識的生物醫療關系抽取方法。
背景技術
隨著社會飛速發展,目前已經進入信息爆炸時代,在生物醫療領域中,每天都有數以千計的生物醫療文獻公開發表,這些文獻中含有海量的生物醫療實體關系,醫生、專家們對其中的有效信息篩選與歸納的需求日益迫切,如何從海量數據提取有效信息成為一個難題。
目前,在關系抽取技術中常常采用基于監督學習的關系抽取技術,這個技術需要大量的人工標注訓練數據,非常的耗時費力。因此,自動、高效地抽取隱含在文獻中的生物醫療實體關系能夠有效節省人力和資源。
隨著深度學習理論的發展,研究人員開始使用神經網絡模型從生物醫療文獻中自動地抽取實體關系。其中,最常用的方法就是使用遠程監督技術,自動產生大量的訓練數據以供人們使用,然而遠程監督技術存在的嚴重問題之一是其產生的訓練數據存在大量的噪聲,這種情況在生物醫療數據上更為突出。神經網絡模型在處理遠程監督生物醫療數據產生的噪音上還沒有十分有效的方法,因此,如何使用神經網絡的方法應用于處理遠程監督生物醫療數據噪聲,是一個十分有意義的研究方向
發明內容
本發明的目的是:針對遠程監督技術的訓練數據存在噪聲干擾的問題,提出一種融入外部知識的生物醫療關系抽取方法。
本發明為了解決上述技術問題采取的技術方案是:
一種融入外部知識的生物醫療關系抽取方法,包括以下步驟:
步驟一、對生物醫療數據集中每個句子中的每個單詞進行詞嵌入和位置嵌入操作,得到詞向量和位置向量,然后將得到的詞向量和位置向量進行拼接得到每個單詞的向量表示,最后將句子中所有單詞的向量表示進行拼接,得到每個句子的矩陣表示;
步驟二、將步驟一得到的每個句子的矩陣表示輸入到PCNN神經網絡中得到生物醫療數據集中每個句子的向量表示;
步驟三、獲取生物醫療數據集中每個句子的頭實體和尾實體,并在外部知識圖譜中分別抽取與頭實體有關系的實體以及與尾實體有關系的實體,得到以頭實體為中心的關系圖和以尾實體為中心的關系圖,將得到的兩個關系圖輸入到圖編碼器中構建頭尾實體的外部知識圖譜的綜合向量表示;
步驟四、將生物醫療數據集中每個句子的向量表示和頭尾實體的外部知識圖譜的綜合向量進行結合,得到包含外部信息的句子向量;
步驟五、對于每個實體對,選擇包含該實體對的所有句子構成一個集合,根據包含外部信息的句子向量表示,采用句子級別注意力機制計算該集合中每個句子的注意力權重,然后以該集合中所有包含外部信息的句子表示的注意力加權和作為該集合的向量表示,并對該集合的向量表示進行預測,得到該實體對的預測關系。
進一步的,所述步驟三中圖編碼器采用KG-Transformer。
進一步的,所述KG-Transformer的編碼過程為:
KG-Transformer將輸入的兩個關系圖中的結點序列的向量表示X={x1,x2,...,xN}輸入到Muti-head Attention Layer與AddNorm Layer:
所述Muti-head Attention Layer進行如下計算:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110367973.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:通信系統
- 下一篇:一種C5aR抗體及其制備方法和應用