[發明專利]一種實體關系聯合抽取方法及裝置在審
| 申請號: | 202110340031.1 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN112926332A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 陳培華 | 申請(專利權)人: | 善診(上海)信息技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G16H50/20 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 許曼;賈磊 |
| 地址: | 201203 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 關系 聯合 抽取 方法 裝置 | ||
1.一種實體關系聯合抽取方法,其特征在于,包括:
獲取待預測文本數據;
利用預先建立的實體關系聯合抽取模型對所述待預測文本數據進行抽取,預測得到詞例區間的類型及實體詞組的關系類型,所述詞例區間的類型包括實體類型及非實體類型,實體詞為實體類型的詞例區間,所述實體詞組的關系類型包括關系及非關系;
其中,所述實體關系聯合抽取模型用于對文本數據進行預處理,得到詞例區間、詞例區間向量、詞例區間長度向量及文本向量;根據預處理得到的信息,預測得到詞例區間的類型;根據實體詞組及實體詞組中實體詞之間文字向量,預測得到實體詞組的關系類型。
2.如權利要求1所述的實體關系聯合抽取方法,其特征在于,還包括:
根據所述待預測文本數據所屬領域的允許關系約束字典,對預測得到的實體詞組的關系類型進行過濾。
3.如權利要求1所述的實體關系聯合抽取方法,其特征在于,所述實體關系聯合抽取模型包括:預處理模塊及分類模塊,其中,所述分類模塊包括嵌入層、第一分類器、過渡層及第二分類器;
所述預處理模塊用于對文本數據進行預處理,得到詞例區間、詞例區間向量、詞例區間長度向量及文本向量;
所述嵌入層連接所述預處理模塊,用于根據預處理得到的信息,構建第一向量;
所述第一分類器連接所述嵌入層,根據所述第一向量,預測得到詞例區間的類型;
所述過渡層連接所述第一分類器及第二分類器,用于篩選出實體類型的詞例區間,得到實體詞;將每兩個實體詞組成的實體詞組及實體詞組中實體詞之間文字向量拼接成第二向量;
所述第二分類器用于根據所述第二向量,預測得到實體詞組的關系類型。
4.如權利要求3所述的實體關系聯合抽取方法,其特征在于,所述預處理模塊對文本數據進行處理,得到詞例區間、詞例區間向量、詞例區間長度向量及文本向量,包括:
對所述文本數據進行分詞/分字處理,得到詞例列表;
利用BERT預訓練模型對所述詞例列表進行處理,得到文本向量和各個詞例所對應的詞例向量;
根據所述詞例列表及預設滑動窗口,獲取詞例區間;
將所述詞例區間包含的詞例向量經融合函數,得到詞例區間向量;
根據所述詞例區間的長度,獲取詞例區間長度向量。
5.如權利要求3所述的實體關系聯合抽取方法,其特征在于,根據所述預處理得到的信息,構建第一向量,包括:
由所述詞例區間向量,或所述詞例區間向量及所述文本向量,或所述詞例區間向量及詞例區間長度向量,或所述詞例區間向量、所述詞例區間長度向量及所述文本向量拼接成第一向量。
6.如權利要求3所述的實體關系聯合抽取方法,其特征在于,所述第一分類器包括:第一分類函數單元及第一判斷單元,所述第一分類函數單元用于輸出詞例區間類型的概率向量,所述第一判斷單元用于根據詞例區間類型的概率向量,確定詞例區間的類型;
所述第二分類器包括:第二分類函數單元及第二判斷單元;所述第二分類函數單元用于輸出實體詞組的關系類型的概率向量,所述第二判斷單元用于根據實體詞組的關系類型的概率向量,確定實體詞組的關系類型。
7.如權利要求3所述的實體關系聯合抽取方法,其特征在于,所述實體關系聯合抽取模型通過如下方式進行訓練:
利用所述預處理模塊對訓練文本數據進行預處理,得到詞例區間、詞例區間向量、詞例區間長度向量及文本向量;
獲取標注得到的詞例區間的實體類型及實體詞組的關聯關系;
根據預處理得到的信息,構建第一向量;
將所述第一向量輸入至所述第一分類器中,預測得到詞例區間的類型;
篩選出實體類型的詞例區間,得到實體詞,將每兩個實體詞組成的實體詞組及實體詞組中實體詞之間的文字向量拼接成第二向量;
將所述第二向量輸入至所述第二分類器中,預測得到實體詞組的關系類型;
根據預測得到的所述詞例區間的實體類型及所述實體詞組的關系類型,以及標注得到的所述詞例區間的實體類型及所述實體詞組的關系類型,訓練所述實體關系聯合抽取模型中的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于善診(上海)信息技術有限公司,未經善診(上海)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110340031.1/1.html,轉載請聲明來源鉆瓜專利網。





