[發明專利]基于關系路徑的遠程監督關系抽取方法、裝置及介質有效
| 申請號: | 202110451394.2 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113268985B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 蔡毅;劉諍 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N5/04;G06N3/0464 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 黎揚鵬 |
| 地址: | 510641 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關系 路徑 遠程 監督 抽取 方法 裝置 介質 | ||
本發明公開了一種基于關系路徑的遠程監督關系抽取方法、裝置及介質,其中方法包括以下步驟:通過遠程監督機制將知識庫中的實體對和文本語料中的實體對進行對齊,構建實體對句子集合,根據實體對的內容將句子劃分為多個包;通過直接句子編碼模塊獲取實體對的相應關系的預測概率;針對每個包對應的實體對的推理關系路徑,通過關系路徑編碼模塊獲取關系路徑推理出相應關系的預測概率;在聯合學習模塊中,結合直接句子編碼模塊中的信息和關系路徑編碼模塊中的信息獲取最終對應實體對的預測關系。本發明采用了聯合學習框架將直接句子的特征信息和關系路徑的推理信息合理地結合起來,提高關系抽取的精準度,可廣泛應用于自然語言處理領域。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種基于關系路徑的遠程監督關系抽取方法、裝置及介質。
背景技術
信息抽取是指從自然語言文本中自動抽取指定類型的實體、關系、事件等事實信息的應用技術。信息抽取主要包括三個子任務:實體抽取、關系抽取和事件抽取。其中關系抽取作為信息抽取領域的核心任務和關鍵環節,近年來也受到了學術界和工業界的廣泛關注。關系抽取的主要目標是從自然語言文本中識別并且判別實體對之間存在的特定關系。研究者利用關系抽取可以從海量的無結構文本中抽取出格式統一的實體關系,這進一步提高了海量數據的處理效率;將多個實體的語義關系和實體進行關聯,有利于知識庫和相關問答系統的自動構建;對用戶查詢文本進行分析處理,幫助提高智能檢索的效率等。
關系抽取任務本質上是一個多分類的文本分類任務,即針對文本中識別出的實體對存在的關系劃分到某個或某幾個預定義的關系類別。目前主流的關系抽取方法是基于神經網絡學習的關系分類方法,而其中取得較好效果的關系分類方法主要是有監督的關系抽取方法和基于遠程監督的關系抽取方法。有監督的關系抽取是目前發展較成熟的一個分支,其以包含實體對的一個句子為處理樣本,主要利用有標注的訓練數據的信息來幫助識別未標注的樣本中實體對存在的關系,優點是能有效利用樣本的標記信息,識別效果較好,但缺點是標注訓練語料的過程耗時費力,代價高昂。遠程監督關系抽取(DistantlySupervised?Relation?Extraction,?DSRE)方法作為目前主流的半監督的深度學習的關系抽取方法,受到了研究者的廣泛關注。遠程監督的實體關系抽取方法顯著降低了對人工標注的依賴,大大降低了構建標注數據集的成本,可以自動抽取大量的實體對,且這種方法移植性較好,能夠更加方便地應用到其他領域。
遠程監督的基本假設是如果一個實體對在知識庫中存在某種關系,那么包含這個實體對的所有句子都會表達出這種關系。利用這種假設,遠程監督的關系抽取的方法將無標注的文本數據與知識庫中的實體進行對齊來產生大量的弱標注語料,進而利用這些標注語料來訓練關系分類模型。這種強假設在數據標注過程將不可避免地帶來錯誤標注問題:大量包含實體對的句子并未表達出實體對在知識庫中存在的關系從而產生數據噪音。當前大多數的遠程監督關系抽取模型為了緩解遠程監督帶來的錯誤標注問題,往往采用了多示例學習的框架,即首先通過將所有包含實體對的句子根據不同的實體對分成一個個的包,再通過卷積神經網絡?(CNN)、長短期記憶網絡(LSTM)等特征學習神經網絡對包中的一個個句子進行向量表示,再按照不同的策略對包的所有的句子表示進行信息融合生成包的向量表示,最后將包的表示輸入到分類器后抽取出對應的已被遠程監督機制標注好的關系(以下簡稱目標關系)。這種多示例的學習框架在某些特定數據集上的確取得了不錯的效果,但模型的魯棒性和應用場景比較局限,在實體關系網絡復雜的真實場景下仍存在一定的問題。
首先,這種多示例的學習框架針對每一個實體對抽取目標關系時,往往都局限于這個實體對對應的包中的信息,而忽略了與其他包之間存在的聯系。其次,目前有一些模型利用了包與包之間的簡單的兩跳關系路徑來幫助模型抽取出目標關系,然而真實的場景下實體之間的關系路徑并不僅僅是兩跳的關系路徑,三跳四跳等多跳的關系路徑同樣占有很大的比重,這些路徑中固然有很多無效的關系路徑,但同樣存在著對模型有幫助的正樣本路徑。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110451394.2/2.html,轉載請聲明來源鉆瓜專利網。





