[發明專利]一種面向知識圖譜構建的實體關系抽取方法及系統在審
| 申請號: | 202210049823.8 | 申請日: | 2022-01-17 |
| 公開(公告)號: | CN114491066A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 譚杰駿;王建軍;金曉偉;郭官峰;胡文斌 | 申請(專利權)人: | 鄭州鍥穎信息科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/194;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
| 地址: | 450053 河南省鄭州市金*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 知識 圖譜 構建 實體 關系 抽取 方法 系統 | ||
本發明公開了一種面向知識圖譜構建的實體關系抽取方法及系統,首先獲取領域中非結構化文本,并進行數據預處理,標注文本中出現的實體、實體類型和實體之間的關系,得到訓練數據;然后構建神經網絡模型;并將訓練數據輸入神經網絡模型進行訓練,分別訓練成為實體類型分類模型,實體關系類型分類模型;最后將實體類型分類模型和實體關系分類模型關聯起來整體運作,對新數據先鑒定實體類型再在此基礎上抽取實體關系。本發明不僅擺脫了人工設計提示詞,也保證了跨數據集和跨領域的靈活性。通過對實體類別進行預分類,縮小了實體關系的分類范圍,提升了關系分類的準確度。本發明能夠適應隨機初始化的提示詞所帶來的影響,而且收斂更快,準確度跟高。
技術領域
本發明屬于計算機科學、語言學和機器學習技術領域,涉及一種面向知識圖譜構建的實體關系抽取方法及系統。
背景技術
知識圖譜能夠組織一個領域或多個領域內的數據,并且有效應用于分析和推理。但是知識圖譜有結構化的包含實體關系的三元組組成,并且要求能動態地從新數據中學習和更新知識。顯然,人工從非結構化數據中整理實體關系非常的繁重且不切實際。現有的研究針對從非結構化文本種提取包含實體關系的三元組普遍采用先進行實體抽取再進行關系分類的兩步策略。相較于實體抽取,關系分類信息更隱蔽,變量更多因而準確度也更低。現有方法在抽取給定實體的關系的時候存在兩個主要問題:使用人工設計的提示詞而削弱了方法的靈活性也增加了人工勞動的強度;在關系分類過程面對眾多類別而降低了分類的準確性。本文提出了一種面向知識圖譜構建的實體關系抽取方法,通過對實體預分類構建雙層關系分類模型,提升了關系分類的準確度。此方法同時可以在隨機初始化的提示詞下依然保持著優良的性能,擺脫了對人工設計提示詞的依賴。
為了解決實體關系抽取問題,2017年Zhang等人使用RNN,2018年Zhang等人使用GCN來處理文本序列。但是,當上下文序列變長時,這些傳統方法表現不佳。最近,基于多頭注意力預訓練語言模型如BERT,已廣泛應用于各種下游NLP任務,并且在處理長序列方面表現優異。通過大規模無監督預訓練,預訓練語言模型掌握了豐富的語義或語法知識。Ernie和Delvin通過使用下游訓練數據微調預訓練語言模型,并應用在實體關系抽取。然而,與預訓練階段固定的任務模式相比,RC模型需要學習基于注釋數據的分類標準。PLM和RC之間的這種差距限制了PLM在RC中實現更好的性能。
為了縮小PLM和RC之間的差距,一些研究人員試圖調整預訓練語言模型的結構。Joshi等人設計了SpanBERT加長單詞掩蓋器,使被掩蓋的單詞可以包含更多的信息,而最近Tong等人通過添加實體類型限制進一步提高了SpanBERT的性能。Peter等人將知識圖譜融入了預訓練語言模型。Yamada等人則在預訓練階段引入了包含實體類型的詞嵌入。但是,這些對預訓練語言模型的調整忽略了一個關鍵問題:句子通常包含的噪聲信息比兩個給定實體之間的關系信息多得多。如果沒有適當的方法來關注關鍵信息,這些方法很容易受到噪音的影響。
同時,利用prompt的預訓練語言模型微調范式被發現是改造下游任務以適應預訓練語言模型的有效方法,Brown等人,Liu等人,Schick等人,Gao等人都做出了嘗試。Liu等人在文獻綜述中將這一范式概括為預訓練、提示詞和預測。利用提示詞的預訓練語言模型微調范式在原始序列的末尾附加了一個簡短的文本提示,以此來操縱預訓練語言模型的行為,并誘導它產生預期輸出,同時減少噪聲信息造成的干擾。Han等人最先把提示詞引入到實體關系抽取。他們基于邏輯規則,將提示詞被分解成手動設計的子提示詞。隨后Chen等人使用連續的提示詞與知識注入。
而現有方法在利用prompt抽取的信息的時候沒有考慮到標準詞向量和空缺詞的預測詞向量的關聯,而且在關系分類過程中面對眾多類別而降低了分類的準確性。另外使用人工設計的標準詞向量代表類別,不僅削弱了方法的靈活性導致不容易遷移到其他數據集,也增加了人工勞動的強度。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州鍥穎信息科技有限公司,未經鄭州鍥穎信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210049823.8/2.html,轉載請聲明來源鉆瓜專利網。





