[發明專利]一種基于PGAT和FTATT的遠程監督關系抽取方法有效
| 申請號: | 202011528527.3 | 申請日: | 2020-12-22 |
| 公開(公告)號: | CN112579792B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 于亞新;包健;王亞龍;吳曉露;喬勇鵬;劉樹越 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/28;G06F40/211;G06F40/253;G06F40/284;G06F40/30;G16H50/70;G06N3/042;G06N3/0442;G06N3/045;G06N3/0464 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 pgat ftatt 遠程 監督 關系 抽取 方法 | ||
本發明公開一種基于PGAT和FTATT的遠程監督關系抽取方法,涉及遠程監督關系抽取技術領域。該方法包括:獲取NYT數據集,將數據集中包含相同實體對的句子劃分在一個包中;獲取每個包中句子的詞語向量表示;基于Bi?LSTM抽取句子的序列特征;基于PGAT抽取句子的句法結構特征;利用FTATT對包中不同句子分配權重;將包中各句子的特征向量與句子的權重系數加權求和,獲得包的特征向量;根據包的特征向量,對包中實體對進行關系分類。利用PGAT能夠捕獲句子的句法結構信息,使得抽取的句子特征包含語義和語法方面的豐富信息,同時采用FTATT對注意力機制進行微調,動態地丟棄盡可能多的噪音數據,提高關系抽取準確性。
技術領域
本發明涉及遠程監督關系抽取技術領域,具體涉及一種基于PGAT(PiecewiseGraph?Attention?Network,分段圖注意力網絡)和FTATT(Fine-tuning?AttentionMechanism,微調注意力機制)的遠程監督關系抽取方法。
背景技術
知識圖譜近些年在醫療領域應用廣泛,根據患者癥狀從醫療知識圖譜中匹配癥狀的實體,實體之間以關系作為邊相連接,例如藥物治療、注意事項、相關癥狀等關系,可以深層次地挖掘患者癥狀所對應的疾病以及相應的治療措施。例如,一名患者存在運動遲緩、動作變慢、痙攣、乏力、癡呆、抑郁癥等癥狀及體征,在醫療知識圖譜中,這些癥狀實體對應的疾病實體正是帕金森病。圖譜中由(實體,關系,實體)構成實體關系三元組,例如(帕金森病,藥物治療,恩他卡朋)和(恩他卡朋,注意事項,不可突然停用本品)。根據三元組及患者癥狀,可以挖掘出該患者可能身患帕金森病,需要使用恩他卡朋進行藥物治療,并叮囑該患者不能隨意停用藥物,需要緩慢減量停藥。
關系抽取是知識圖譜構建過程的核心任務。關系抽取是指在實體識別的基礎之上從非結構化文本句子中抽取預先定義的實體對之間的關系,也稱為實體關系抽取。對一個句子進行關系抽取的結果可以形式化為一個關系三元組(e1,r,e2),e1、e2表示實體,r表示兩個實體之間的關系。關系抽取的大量研究工作都集中在有監督學習方法中。有監督的關系抽取需要大量具有特定標注關系的訓練數據進行訓練,訓練數據的標注非常耗時同時人力耗費巨大。在這種情況下,采用遠程監督方法進行關系抽取應運而生,其中關系特征設計對遠程監督關系抽取的后續錯誤句子標簽的篩選具有重要的作用。現有的研究工作通常使用卷積神經網絡對文本句子進行編碼,僅是在文本序列上進行特征抽取、關系抽取的效果并不理想,在關系抽取中沒有將在依存句法樹上體現的語法信息與文本序列中的語義信息有效地融合。
遠程監督方法通過自動對齊遠程知識庫代替人工標注生成訓練數據。但是存在一個強假設條件,即如果兩個實體在某一個知識庫中存在某種關系,那么所有包含這兩個實體的文本句子都視為這個關系的正實例。這樣會導致大量的標簽標注錯誤,產生噪聲數據。為了解決錯誤標注問題,現有的研究工作采用多實例學習、注意力機制解決噪聲問題。盡管如此,噪聲數據對關系抽取性能影響仍然較大。當同一實體對包含的噪聲數據越多,性能影響就越明顯。
發明內容
在現有的遠程監督關系抽取方法中,考慮抽取句子的序列特征信息作為句子的特征表示,這樣無法充分地表示句子的語義和語法信息,同時現有的方法在面對句子標簽錯誤標注問題上采用多實例學習和注意力機制處理,但是噪聲句子的影響依舊很大,需要進一步優化解決。針對現有技術的不足,本發明提出一種基于分段圖注意力網絡和微調注意力機制的遠程監督關系抽取方法,旨在抽取豐富的句子特征的同時盡可能多地丟棄噪聲句子,從而提高關系抽取的準確性。
為解決上述技術問題,本發明的基于PGAT和FTATT的遠程監督關系抽取方法,包括以下步驟:
步驟1:獲取NYT數據集,根據遠程監督關系抽取條件假設,將NYT數據集中包含相同實體對的句子劃分在一個包中;
步驟2:獲取每個包中句子的詞語向量表示;
步驟3:根據詞語向量表示,抽取包中每個句子的特征向量表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011528527.3/2.html,轉載請聲明來源鉆瓜專利網。





