[發明專利]一種實體關系聯合抽取方法在審
| 申請號: | 201911063750.2 | 申請日: | 2019-11-04 |
| 公開(公告)號: | CN110781683A | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 馮鈞;杭婷婷;李曉東;陸佳民;嚴樂;朱躍龍 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 32224 南京縱橫知識產權代理有限公司 | 代理人: | 楊靜 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽標注 抽取 三元組 句子 非結構化數據 注意力機制 句子輸入 實體關系 信息抽取 有效工具 對齊 訓練集 聯合 準確率 構建 語料 去除 校正 標簽 復合 研究 | ||
本發明公開了一種基于多標簽標注和復合注意力機制的實體關系聯合抽取方法,包括以下步驟:收集用于研究的語料數據,然后去除關系標簽為None的句子,對剩余的句子進行多標簽標注,形成訓練集;將經過多標簽標注的句子輸入到聯合抽取模型中,通過所述聯合抽取模型來識別句子中所包含的實體以及實體之間的關系,構建三元組;利用關系對齊模型對抽取出來的三元組進行校正,以適應(頭實體E1,尾實體E2)實體對的多標簽標注。本發明的效果為:能夠有效的提高三元組抽取的準確率,是針對非結構化數據進行信息抽取的有效工具。
技術領域
本發明涉及信息抽取和自然語言處理技術領域,具體涉及一種實體關系聯合抽取方法。
背景技術
隨著互聯網技術的快速發展,人們需要處理的數據量激增,如何快速高效地從這些開放領域的文本中抽取出實體及實體之間的關系信息,成為迫切需要解決的重要問題。實體關系抽取是針對非結構化數據進行信息抽取的一項核心任務,其主要目標是從文本中同時檢測實體并識別實體對間的語義關系,被廣泛應用在知識圖譜構建、信息檢索、對話生成和問答系統等方面。目前實體關系抽取一般采用流水線方法和聯合學習方法兩個框架。傳統的抽取任務通常采用“流水線”方式,先提取實體,然后識別實體之間的關系。“流水線”方式處理起來非常方便,但卻忽略兩個子任務的相關性,會產生一些錯誤的疊加。不同于上述的“流水線”方法,聯合抽取模型在進行實體抽取的同時,能夠從文本中提取出實體之間的關系,避免流水線方法造成的錯誤積累。但是,現有的聯合學習方法依然存在無法識別重疊關系、無法學習到句子中更豐富的上下文信息、未對抽取結果進行校正等問題,從而導致三元組抽取準確率不高。目前主要的挑戰是如何提升三元組抽取的準確率,這些問題的解決很大程度上取決于數據標注的質量、模型本身的性能和抽取結果的校正三個方面。
在數據標注方面,標注粒度逐漸細化,從早期的IO標注體系,到BIO標注體系,再到最近提出的BIOES標注體系,(其中B表示該單詞位于實體起始位置,I表示該單詞位于實體中間位置,E表示該單詞位于實體末端位置,S表示該單詞是一個實體,O表示非實體);上述這些標注體系包含實體信息及實體之間的關系信息。基于這些標注方案,然后使用聯合抽取模型來實現聯合抽取任務。然而大多數現有的標注方法都是基于單標簽標注,在重疊關系的識別上存在著一些缺陷,忽視一個單詞有多個標簽及一個單詞可以出現在多個三元組結果中的問題。
在數據標注的基礎上,需要疊加聯合抽取模型來完成聯合抽取任務。目前存在的聯合抽取模型大多數是基于特征的,嚴重依賴于復雜的特征,而且難以利用全局的特征。為了自動學習全局特征,目前業界普遍采用基于編碼-解碼(Encoder-Decoder)框架的端到端模型,在聯合抽取任務上取得更好的實驗結果。然而,該體系結構存在一個問題,編碼器采用固定窗口的上下文向量進行內部表示,無法獲得更豐富的上下文信息,因此在長輸入或輸出序列上的性能較差。
在抽取結果的校正方面,如果只在訓練集上考慮到重疊關系的標注,對抽取結果未考慮到重疊關系的識別,也會導致三元組抽取準確率降低。比如在進行數據標注的時候,實體對之間存在多種關系,如果抽取模型預測實體對之間只有一個單一關系的結果,會帶來實體對在多關系分類的預測損失。
針對上述問題,需要提出了一個新的抽取模型來提取實體及實體之間的關系,是信息抽取領域的必要措施。
發明內容
針對現有聯合學習方法存在的無法識別重疊關系,無法學習到句子中更豐富的上下文信息,抽取結果未進行校正等問題,本發明的目的在于提出一種基于多標簽標注和復合注意力機制的實體關系聯合抽取方法,能夠實現對三元組的直接建模,避免分別提取實體及實體之間關系所造成的錯誤積累問題,是信息抽取和自然語言處理的有效工具。
為了實現上述目的,本發明是通過如下的技術方案來實現:
一種實體關系聯合抽取方法,包括以下步驟:
對待處理語料數據進行多標簽標注;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911063750.2/2.html,轉載請聲明來源鉆瓜專利網。





