[發明專利]一種基于多實例協同對抗訓練的遠程監督關系抽取方法有效
| 申請號: | 202011137036.6 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112016293B | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 莊越挺;湯斯亮;肖俊;陳濤;吳飛;李曉林;譚熾烈;蔣韜 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/20 | 分類號: | G06F40/20;G06F40/295;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 實例 協同 對抗 訓練 遠程 監督 關系 抽取 方法 | ||
本發明公開了一種基于多實例協同對抗訓練的遠程監督關系抽取方法,以解決遠程監督關系抽取任務中傳統多實例學習框架存在的較低的數據使用效率的問題。數據使用率較低的問題是由多實例學習框架傾向于只關注包內的高質量語句,而忽視大量的潛在噪聲語句造成的。而本發明的方法協同虛擬對抗訓練和對抗訓練,分別約束包內的噪聲樣本和包級的準確特征,在解決數據利用率問題的同時進一步強化模型性能。該方法在效果上優于近些年來一些主流的相關算法。
技術領域
本發明涉及自然語言處理,尤其涉及一種基于多實例協同對抗訓練的遠程監督關系抽取方法。
背景技術
自然語言處理(Nature Language Processing,簡稱NLP)是一門集語言學與計算機科學為一體的交叉學科。關系抽取(Relation Extraction,簡稱RE)作為信息抽取中的關鍵子任務,其在自動化知識庫構建過程中扮演著至關重要的角色。它的主要目標是基于給出的上下文(Context)句子和指定的實體(Entity)對,判斷實體對之間的關系類別。對于無關系的實體對,一般用特殊的關系類別(NA)來指代。
傳統的關系抽取模型依賴于大量人工標注的數據,這些數據的獲取過程往往是極其費時費力的。因此,遠程監督方法被自然地引入到關系抽取任務當中,通過外部知識庫自動構建訓練語料。其具體做法是將無標注語料中的實體對與已存在的知識庫事實(KBFact)對齊,啟發式地賦予無標注語料以標簽。
但是基于遠程監督構建的語料往往存在著數據噪聲問題,簡單的啟發式匹配往往會導致錯誤標簽的引入(False Positive False Negative),這給構建一個準確而穩定的關系抽取模型帶來了挑戰。為了緩解噪聲問題,主流方法通常采用多實例學習(Multi-Instance Learning),將包含相同實體對的句子歸并為包(Bag)作為新的訓練單元。在包內,模型會根據當前的后驗信息,動態選擇賦予不同質量的句子以不同的權重,從而形成一個較為準確的包級特征表達,模型最終將基于這個包層級的準確表達進行后續訓練。
雖然多實例學習一定程度上緩解了數據噪聲問題,但是實際上它犧牲了一定的數據利用率。具體而言,為了得到一個較為可靠的包級表達,多實例學習只關注了那些具有高注意力分數的句子,并沒有充分發揮大量低注意力分數句子的作用。而事實上包內句子的注意力分數分布是一個長尾分布,大部分包內句子的注意力分數都比較低,這意味著有大量潛在的信息未被多實例學習框架利用。
發明內容
本發明的目的是為了克服現有技術的不足,提供一種基于協同對抗訓練的遠程監督關系抽取方法。
本發明具體通過以下技術方案實現:
一種基于多實例協同對抗訓練的遠程監督關系抽取方法,其包括以下步驟:
S1:獲取由句子實例構成的訓練數據,并通過遠程監督使其對齊到知識庫,將含有相同實體對的句子實例構建成包,每個包中的所有句子實例具有相同的關系標簽;
S2:針對S1中構建的每個包,基于多實例學習框架中蘊含的注意力信號,對包內所有句子實例的特征進行加權,獲得包級特征并計算交叉熵損失約束,同時根據注意力信號確定潛在的包內噪聲實例;
S3:針對S1中構建的每個包,在其包級特征的對抗方向上添加第一擾動向量,使擾動向量添加前后多實例學習框架輸出的關系標簽變化量最大,再計算在第一擾動向量添加后每個包的局部光滑度約束;
S4:針對S1中構建的每個包,在輸入層向每個包內噪聲實例添加虛擬對抗方向上的第二擾動向量,使擾動向量添加前后多實例學習框架輸出的條件概率變化量最大,再計算第二擾動向量添加后每個包的局部平滑性約束;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011137036.6/2.html,轉載請聲明來源鉆瓜專利網。





