[發明專利]一種實體識別方法、裝置、設備、存儲介質及產品在審
| 申請號: | 202210040192.3 | 申請日: | 2022-01-13 |
| 公開(公告)號: | CN116484862A | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 朱葉霜;張金超;周杰 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/211;G06F40/30;G06F18/2415;G06N3/047;G06N3/0455;G06N3/044;G06N3/08 |
| 代理公司: | 深圳市聯鼎知識產權代理有限公司 44232 | 代理人: | 徐明霞 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 識別 方法 裝置 設備 存儲 介質 產品 | ||
1.一種實體識別方法,其特征在于,包括:
獲取主題句,以及所述主題句所概括的篇章文本;
從所述篇章文本中提取與所述主題句關聯的關鍵句,并根據所述關鍵句和所述主題句拼接得到的拼接句提取文本信息特征,所述文本信息特征包含所述篇章文本的上下文信息;
根據所述文本信息特征對所述主題句中含有的實體進行識別,得到所述主題句所含有的各個實體詞以及各個實體詞的類別。
2.根據權利要求1所述的方法,其特征在于,所述根據所述關鍵句和所述主題句拼接得到的拼接句提取文本信息特征包括:
對所述拼接句進行上下文編碼得到主題句向量;
獲取所述主題句向量的輔助向量,所述輔助向量用于對所述主題句向量的上下文信息進行補充;
將所述主題句向量和所述輔助向量進行拼接,得到所述文本信息特征。
3.根據權利要求2所述的方法,其特征在于,所述獲取所述主題句向量的輔助向量,包括:
根據所述篇章文本所屬的主題領域從所述篇章文本中提取關鍵詞的特征,得到關鍵詞向量;
將所述主題句向量和所述關鍵詞向量進行融合,得到所述輔助向量。
4.根據權利要求3所述的方法,其特征在于,所述關鍵詞向量包括地址鍵項和值項,所述將所述主題句向量和所述關鍵詞向量進行融合,得到所述輔助向量,包括:
根據所述主題句向量和所述地址鍵項的相似度確定所述值項的權重系數;
根據所述權重系數對所述值項進行加權求和,以得到所述輔助向量。
5.根據權利要求1-4任一項所述的方法,其特征在于,所述根據所述文本信息特征對所述主題句中的實體進行識別,得到所述主題句所含有的各個實體詞以及各個實體詞的類別,包括:
將所述文本信息特征輸入至條件隨機場模型,以獲得所述條件隨機場模型輸出的所述主題句所含有的各個實體詞以及各個實體詞的類別。
6.根據權利要求1所述的方法,其特征在于,所述根據所述關鍵句和所述主題句拼接得到的拼接句提取文本信息特征,包括:
將多個所述關鍵句分別與所述主題句進行拼接,得到包含所述上下文信息的增廣樣本集;
根據所述增廣樣本集和已有主題句數據合并得到的增廣主題句數據集提取文本信息特征。
7.根據權利要求6所述的方法,其特征在于,所述根據所述文本信息特征對所述主題句中的實體進行識別,得到所述主題句所含有的各個實體詞以及各個實體詞的類別,包括:
以字或詞為單元對所述文本信息特征進行編碼,得到向量形式的輸入序列;
將所述輸入序列進行上下文編碼以得到上下文向量,并對所述上下文向量進行解碼以得到所述主題句所含有的各個實體詞以及各個實體詞的類別。
8.根據權利要求1所述的方法,其特征在于,所述從所述篇章文本中提取與所述主題句關聯的關鍵句包括:
確定所述篇章文本的篇首,所述篇首對應的篇首文本包含與所述主題句相關的關鍵信息;
從所述篇首文本中提取包含所述關鍵信息的句子作為所述關鍵句。
9.根據權利要求1所述的方法,其特征在于,所述從所述篇章文本中提取與所述主題句關聯的關鍵句包括:
根據所述主題句的內容信息確定所述篇章文本中的每個句子的重要程度;
選取重要程度大于預設閾值的句子作為所述關鍵句。
10.根據權利要求9所述的方法,其特征在于,所述根據所述主題句的內容信息確定所述篇章文本中的每個句子的重要程度包括:
對所述主題句進行分詞處理,得到所述主題句包含的各目標詞語;
將各目標詞語分別與所述篇章文本中的每個句子進行名詞匹配處理;
根據每個句子中含有的目標詞語的數量確定對應的重要程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210040192.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于顏色編碼的舌象舌色分類方法及裝置
- 下一篇:一種信息處理方法及裝置





