[發明專利]一種結合命名實體識別的開放域信息抽取方法有效
| 申請號: | 202110318974.4 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN113158671B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 胡明昊;羅威;譚玉珊;羅準辰;田昌海;葉宇銘;毛彬;宋宇 | 申請(專利權)人: | 胡明昊;中國人民解放軍軍事科學院軍事科學信息研究中心 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/211;G06F40/216;G06F16/33;G06F16/35 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100142 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 命名 實體 識別 開放 信息 抽取 方法 | ||
1.一種結合命名實體識別的開放域信息抽取方法,所述方法包括:
將待抽取的句子輸入預先建立和訓練好的三元組謂詞抽取器,輸出謂詞短語;
將謂詞短語和待抽取的句子輸入預先建立和訓練好的三元組要素抽取器,輸出三元組要素短語的位置;三元組要素包括:主語、賓語及定語;
將三元組要素抽取器中獲取的序列隱狀態表示和三元組要素短語的位置,輸入預先建立和訓練好的命名實體識別器,輸出三元組要素短語的命名實體類別;
其中,三元組謂詞抽取器用于抽取輸入句子中出現的三元組涉及的謂詞,三元組謂詞抽取器單獨進行訓練,三元組要素抽取器用于抽取輸入句子中出現的三元組涉及的要素短語;命名實體識別器用于識別三元組要素短語的命名實體類別;三元組要素抽取器和命名實體識別器聯合進行訓練;
所述三元組謂詞抽取器包括:第一預處理模塊、第一預訓練語言模型和條件隨機場層,第一預訓練語言模型包含L個依次連接的預訓練Transformer塊;
所述第一預處理模塊,用于將輸入句子轉換為第一輸入序列:[CLS],Tok1,Tok2,…,Tokn,[SEP],其中,[CLS]和[SEP]均為特殊符號,Tok1,Tok2,…,Tokn為輸入句子中包含的n個字符;然后獲得第一輸入序列的預訓練詞嵌入表示H0,該詞嵌入表示H0為字符嵌入、位置嵌入和分段嵌入之和,將詞嵌入表示H0輸入第一預訓練語言模型;
所述第一預訓練語言模型,用于利用L個預訓練的Transformer塊對輸入的詞嵌入表示H0依次進行編碼:
其中,Hi為第i個Transformer塊輸出的第一序列隱狀態表示,TransformerBlock()表示Transformer函數;
將第L個Transformer塊輸出的第一序列隱狀態表示HL輸入條件隨機場層;
所述條件隨機場層,用于對第一序列隱狀態表示HL進行預測,輸出每個字符在BIO標簽體系下的概率分布YP,YP是一個維度為(n+2)×3的概率分布,對該概率分布進行解碼,可以得到第一輸入序列的BIO預測標簽,進而獲得預測的謂詞短語;
所述方法還包括:對三元組謂詞抽取器進行訓練的步驟;具體包括:
步驟101)收集領域相關文本,按照BIO標簽體系標注文本中出現的三元組謂詞短語,得到三元組謂詞抽取訓練樣本;
步驟102)第一預處理模塊對輸入的三元組謂詞抽取訓練樣本的句子進行預處理,輸出詞嵌入表示;
步驟103)第一預訓練語言模型對詞嵌入表示輸入進行編碼,輸出第一序列隱狀態表示HL;
步驟104)條件隨機場層基于第一序列隱狀態表示HL預測單詞的謂詞標簽;
步驟105)通過預測的謂詞標簽與步驟101)標注的真實三元組謂詞短語,計算交叉熵損失函數連同第一預訓練語言模型一起進行微調,以訓練三元組謂詞抽取器;
所述三元組要素抽取器包含第二預處理模塊、第二預訓練語言模型和三頭指針網絡;第二預訓練語言模型包含L個依次連接的預訓練Transformer塊;所述三頭指針網絡包括三個頭指針;
所述第二預處理模塊,用于將輸入句子和抽取的謂詞短語拼接為第二輸入序列:[CLS],tok1,…,tokm,[SEP],Tok1,Tok2,…,Tokn,[SEP],其中謂詞短語包含m個字符:tok1,…,tokm,輸入句子包含n個字符:Tok1,Tok2,…,Tokn;然后獲得第二輸入序列的詞嵌入表示并輸入第二預訓練語言模型;
所述第二預訓練語言模型,用于利用L個預訓練的Transformer塊對輸入的詞嵌入表示依次進行編碼:
其中,為第i個Transformer塊輸出的第二序列隱狀態表示;
將第L個Transformer塊輸出的第二序列隱狀態表示輸入三頭指針網絡;
所述三頭指針網絡,用于分別利用三個頭指針預測三元組要素在輸入序列中位置,其中第j個頭指針輸出兩組概率分布和為:
其中,和為維度是1×d的可訓練參數,d表示隱狀態維度,用于計算向量X=(x1,x2…xK)的概率分布,j=1,2,3;
通過取和中得分最大的位置,即可預測第j個要素在第二輸入序列中的開始位置sj和結束位置ej;
所述命名實體識別器包括:自注意力加權模塊和感知機分類器:
所述自注意力加權模塊,用于根據三元組要素抽取器的第二預訓練語言模型輸出的第二序列隱狀態表示以及第j個要素在第二輸入序列中的開始位置sj和結束位置ej,計算第j個要素的自注意力概率分布aj:
其中,Wa為維度是1×d的可訓練參數;
然后計算基于該自注意力概率分布的第j個要素加權和作為第j個要素隱狀態表示
將輸入感知機分類器;
所述感知機分類器,用于輸出第j個要素的命名實體類別概率分布
其中,Wc為維度是c×d的可訓練參數,c表示命名實體類別個數;
取中得分最大對應的實體類型,即是預測的要素實體類別;
所述方法還包括:對三元組要素抽取器和命名實體識別器進行聯合訓練的步驟;具體包括:
步驟201)在三元組謂詞抽取訓練樣本基礎上,額外標注要素短語的位置以及要素短語的命名實體類型,得到聯合訓練樣本;
步驟202)三元組要素抽取器的第二預處理模塊對輸入的三元組謂詞抽取訓練樣本的句子及其真實謂詞短語進行預處理,輸出詞嵌入表示;
步驟203)第二預訓練語言模型對輸入的詞嵌入表示進行編碼,得到序列隱狀態表示,分別輸出至三元組要素抽取器的三頭指針網絡和命名實體識別器的自注意力加權模塊;
步驟204)三頭指針網絡基于序列隱狀態表示,預測三元組要素短語在句子中位置;
步驟205)通過預測的三元組要素短語在句子中位置和步驟201)標注的真實要素短語位置,計算交叉熵損失函數
步驟206)自注意力加權模塊基于標注的要素短語位置和序列隱狀態表示,計算并輸出標注的要素短語的隱狀態表示;
步驟207)感知機分類器基于要素短語的隱狀態表示,預測要素的命名實體類別;
步驟208)通過預測的要素的命名實體類別與步驟201)標注的真實命名實體類型,計算交叉熵損失函數
步驟209)計算總損失函數連同第二預訓練語言模型一起進行微調,由此聯合訓練三元組要素抽取器和命名實體識別器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于胡明昊;中國人民解放軍軍事科學院軍事科學信息研究中心,未經胡明昊;中國人民解放軍軍事科學院軍事科學信息研究中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110318974.4/1.html,轉載請聲明來源鉆瓜專利網。





