[發明專利]一種文檔級遠程監督關系抽取方法及系統有效
| 申請號: | 202011135229.8 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN112307130B | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | 劉知遠;孫茂松;肖朝軍;姚遠;謝若冰;韓旭;林芬;林樂宇 | 申請(專利權)人: | 清華大學;騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/215;G06F40/284;G06N3/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 張睿 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 遠程 監督 關系 抽取 方法 系統 | ||
1.一種文檔級遠程監督關系抽取方法,其特征在于,包括:
獲取遠程監督數據;
基于訓練好的預降噪模型,對所述遠程監督數據進行降噪處理,得到目標遠程監督數據,所述訓練好的預降噪模型是由標注為正樣例的樣本遠程監督數據和標注為負樣例的樣本遠程監督數據訓練得到的;
將所述目標遠程監督數據輸入到訓練好的文本編碼器模型中,得到文檔級關系抽取結果,所述訓練好的文本編碼器模型是由降噪后的樣本文檔級遠程監督數據訓練得到的;
所述方法還包括:
通過預訓練的文本編碼器模型,對每一個實體對進行分類,得到每一個實體對屬于任意一個關系的概率P:
P=softmax(wfr+bf);
其中,表示實體對向量,d為向量維度;和表示訓練參數,nr為關系數量,兩個參數為關系分類時的線性輸出層的兩個參數,用于計算關系分類的輸出;
將交叉熵作為損失函數進行訓練,對預訓練的文本編碼器模型中的參數進行微調,得到訓練好的文本編碼器模型。
2.根據權利要求1所述的文檔級遠程監督關系抽取方法,其特征在于,所述訓練好的文本編碼器模型通過以下步驟訓練得到:
通過訓練好的預降噪模型,對樣本遠程監督數據進行降噪處理,得到降噪后的樣本遠程監督數據;
根據所述降噪后的樣本遠程監督數據,對待訓練的文本編碼器模型分別進行實體提及匹配預訓練、實體關系事實檢測預訓練和關系事實對齊預訓練,得到預訓練的文本編碼器模型;
通過預設標注數據集,對所述預訓練的文本編碼器模型進行調整,得到訓練好的文本編碼器模型,所述預設標注數據集是由已標注實體關系的遠程監督數據構建得到的。
3.根據權利要求2所述的文檔級遠程監督關系抽取方法,其特征在于,所述訓練好的預降噪模型通過以下步驟訓練得到:
獲取樣本遠程監督數據,并將具有實體關系的樣本遠程監督數據標注為正樣例,將不具有實體關系的樣本遠程監督數據標注為負樣例;
根據所述正樣例和所述負樣例,對待訓練的預降噪模型進行訓練,得到訓練好的預降噪模型。
4.根據權利要求2所述的文檔級遠程監督關系抽取方法,其特征在于,所述訓練好的文本編碼器模型和所述訓練好的預降噪模型是基于BERT模型構建得到的。
5.根據權利要求2所述的文檔級遠程監督關系抽取方法,其特征在于,所述實體提及匹配預訓練包括:
獲取所述降噪后的樣本遠程監督數據中的實體提及和實體;
獲取所述實體提及和所述實體之間的匹配分數;
根據所述匹配分數,通過歸一化指數函數和交叉熵函數,獲取第一損失函數;
根據所述第一損失函數對所述待訓練的文本編碼器模型進行更新,以完成實體提及匹配預訓練。
6.根據權利要求2所述的文檔級遠程監督關系抽取方法,其特征在于,所述實體關系事實檢測預訓練包括:
獲取所述降噪后的樣本遠程監督數據中所有的實體對;
通過線性變換,對每個實體對進行打分,得到每個實體對的分數;
根據每個實體對的分數,通過歸一化指數函數和交叉熵函數,獲取第二損失函數;
根據所述第二損失函數對所述待訓練的文本編碼器模型進行更新,以完成實體關系事實檢測預訓練。
7.根據權利要求2所述的文檔級遠程監督關系抽取方法,其特征在于,所述關系事實對齊預訓練包括:
獲取所述降噪后的樣本遠程監督數據中多個文檔;
從多個文檔中獲取相同的實體對,并根據歸一化指數函數和交叉熵函數,獲取第三損失函數,以根據所述第三損失函數對所述待訓練的文本編碼器模型進行更新,以完成關系事實對齊預訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;騰訊科技(深圳)有限公司,未經清華大學;騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011135229.8/1.html,轉載請聲明來源鉆瓜專利網。





