[發明專利]一種結合命名實體識別的開放域信息抽取方法有效
| 申請號: | 202110318974.4 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN113158671B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 胡明昊;羅威;譚玉珊;羅準辰;田昌海;葉宇銘;毛彬;宋宇 | 申請(專利權)人: | 胡明昊;中國人民解放軍軍事科學院軍事科學信息研究中心 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/211;G06F40/216;G06F16/33;G06F16/35 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100142 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 命名 實體 識別 開放 信息 抽取 方法 | ||
本發明公開了一種結合命名實體識別的開放域信息抽取方法,所述方法包括:將待抽取的句子輸入預先建立和訓練好的三元組謂詞抽取器,輸出謂詞短語;將謂詞短語和待抽取的句子輸入預先建立和訓練好的三元組要素抽取器,輸出三元組要素短語的位置;三元組要素包括:主語、賓語及定語;將三元組要素抽取器中獲取的序列隱狀態表示和三元組要素短語的位置,輸入預先建立和訓練好的命名實體識別器,輸出三元組要素短語的命名實體類別;其中,三元組謂詞抽取器用于抽取輸入句子中出現的三元組涉及的謂詞;三元組要素抽取器用于抽取輸入句子中出現的三元組涉及的要素短語;命名實體識別器用于識別三元組要素短語的命名實體類別。
技術領域
本發明涉及信息抽取技術領域,具體涉及一種結合命名實體識別的開放域信息抽取方法。
背景技術
開放域信息抽取是指從非結構化文本數據中抽取由關系短語和要素短語構成的結構化三元組。開放域信息抽取是涉及知識圖譜構建的重要任務,可以進一步應用到文本蘊含、自動問答等領域。目前,開放域信息抽取方法僅支持從給定句子中抽取三元組信息,而無法有效獲得三元組中要素短語的命名實體類型。相比于傳統開放域信息抽取,結合命名實體識別的開放域信息抽取能提供額外的命名實體類別信息,這對于知識圖譜構建大有裨益,其實現也更具挑戰。
面對這一挑戰,一種常見做法是構建結合開放域信息抽取和命名實體識別的流水線系統。然而,流水線系統通常面臨誤差累積問題,即兩個模型的預測誤差存在相互疊加后放大的現象。為應對這一問題,一種常見做法是設計端到端的模型來聯合開放域信息抽取和命名實體識別兩種任務。然而,據我們所知,目前尚沒有公開發表的工作進行這方面的研究。
此外,傳統的基于序列標注的開放域信息抽取方法無法有效應對嵌套三元組的情況。例如在句子“Rather?ominously,rabbit?studies?reveal?that?RU-486can?causebirth?defects.”中,其中一個三元組為(“studies”、“reveal”、“that?RU-486can?causebirth?defects”),而另一個三元組嵌套在第一個三元組中,為(“RU-486”、“cause”、“birthdefects”),此時單詞如“RU-486”、“cause”等擁有多個BIO標簽,而序列標注方法無法同時輸出多個標簽。因此,如何有效解決嵌套三元組抽取問題也是一大挑戰。
發明內容
本發明的目的在于克服現有基于序列標注的流水線式方法存在的誤差累積、嵌套三元組抽取精度低的缺陷,提出一種聯合開放域信息抽取及命名實體識別的方法,
為了實現上述目的,本發明提出了一種結合命名實體識別的開放域信息抽取方法,所述方法包括:
將待抽取的句子輸入預先建立和訓練好的三元組謂詞抽取器,輸出謂詞短語;
將謂詞短語和待抽取的句子輸入預先建立和訓練好的三元組要素抽取器,輸出三元組要素短語的位置;三元組要素包括:主語、賓語及定語;
將三元組要素抽取器中獲取的序列隱狀態表示和三元組要素短語的位置,輸入預先建立和訓練好的命名實體識別器,輸出三元組要素短語的命名實體類別;
其中,三元組謂詞抽取器用于抽取輸入句子中出現的三元組涉及的謂詞,三元組謂詞抽取器單獨進行訓練,三元組要素抽取器用于抽取輸入句子中出現的三元組涉及的要素短語;命名實體識別器用于識別三元組要素短語的命名實體類別;三元組要素抽取器和命名實體識別器聯合進行訓練。
作為上述方法的一種改進,所述三元組謂詞抽取器包括:第一預處理模塊、第一預訓練語言模型和條件隨機場層,第一預訓練語言模型包含L個依次連接的預訓練Transformer塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于胡明昊;中國人民解放軍軍事科學院軍事科學信息研究中心,未經胡明昊;中國人民解放軍軍事科學院軍事科學信息研究中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110318974.4/2.html,轉載請聲明來源鉆瓜專利網。





