[發明專利]一種實體識別方法、裝置、設備、存儲介質及產品在審
| 申請號: | 202210040192.3 | 申請日: | 2022-01-13 |
| 公開(公告)號: | CN116484862A | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 朱葉霜;張金超;周杰 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/211;G06F40/30;G06F18/2415;G06N3/047;G06N3/0455;G06N3/044;G06N3/08 |
| 代理公司: | 深圳市聯鼎知識產權代理有限公司 44232 | 代理人: | 徐明霞 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 識別 方法 裝置 設備 存儲 介質 產品 | ||
本申請的實施例揭示了一種實體識別方法、裝置、設備、存儲介質及產品,該方法包括:獲取主題句,以及主題句所概括的篇章文本;從篇章文本中提取與主題句關聯的關鍵句,并根據關鍵句和主題句拼接得到的拼接句提取文本信息特征,文本信息特征包含篇章文本的上下文信息;根據文本信息特征對主題句中含有的實體進行識別,得到主題句所含有的各個實體詞以及各個實體詞的類別。本申請實施例提供的方法,無需增加額外的數據標注成本,且有效提升主題句含有的實體識別效率和識別準確率。
技術領域
本申請涉及實體識別技術,具體而言,涉及一種實體識別方法、實體識別裝置、電子設備、計算機可讀存儲介質及計算機程序產品。
背景技術
隨著自然語言處理技術的發展,出現了命名實體識別技術,命名實體識別(NamedEntity?Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的片段,并賦予其相應的實體類別標記,主要包括人名、地名、機構名、專有名詞等。
在相關技術中,命名實體識別包括篇章級命名實體識別,這類方法的核心思想是利用跨句子的語義信息和篇章中相同實體詞的類別一致性識別整個篇章中的所有實體,但由于這類方法依賴整個篇章的標注數據,標注數據的收集成本極其昂貴,且利用篇章級模型完整識別全部命名實體會大大增加在線推理的計算量,使得實體識別的效率過低。
發明內容
為解決上述技術問題,本申請的實施例提供了一種實體識別方法、實體識別裝置、電子設備、計算機可讀存儲介質及計算機程序產品,無需增加額外的數據標注成本,且有效提升主題句的實體識別效率和識別準確率。
本申請的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本申請的實踐而習得。
根據本申請實施例的一個方面,提供了一種實體識別方法,包括:獲取主題句,以及所述主題句所概括的篇章文本;從所述篇章文本中提取與所述主題句關聯的關鍵句,并根據所述關鍵句和所述主題句拼接得到的拼接句提取文本信息特征,所述文本信息特征包含所述篇章文本的上下文信息;根據所述文本信息特征對所述主題句中含有的實體進行識別,得到所述主題句所含有的各個實體詞以及各個實體詞的類別。
根據本申請實施例的一個方面,提供了一種實體識別裝置,包括:獲取模塊,用于獲取主題句,以及所述主題句所概括的篇章文本;拼接提取模塊,用于從所述篇章文本中提取與所述主題句關聯的關鍵句,并根據所述關鍵句和所述主題句拼接得到的拼接句提取文本信息特征,所述文本信息特征包含所述篇章文本的上下文信息;識別模塊,用于根據所述文本信息特征對所述主題句中含有的實體進行識別,得到所述主題句所含有的各個實體詞以及各個實體詞的類別。
在本申請的一實施例中,所述拼接提取模塊包括第一拼接單元,用于對所述拼接句進行上下文編碼得到主題句向量;輔助單元,用于獲取所述主題句向量的輔助向量,所述輔助向量用于對所述主題句向量的上下文信息進行補充;第二拼接單元,將所述主題句向量和所述輔助向量進行拼接,得到所述文本信息特征。
在本申請的一實施例中,輔助單元進一步用于根據所述篇章文本所屬的主題領域從所述篇章文本中提取關鍵詞的特征,得到關鍵詞向量;將所述主題句向量和所述關鍵詞向量進行融合,得到所述輔助向量。
在本申請的一實施例中,所述關鍵詞向量包括地址鍵項和值項,第二拼接單元進一步用于根據所述主題句向量和所述地址鍵項的相似度確定所述值項的權重系數;根據所述權重系數對所述值項進行加權求和,以得到所述輔助向量。
在本申請的一實施例中,識別模塊進一步用于將所述文本信息特征輸入至條件隨機場模型,以獲得所述條件隨機場模型輸出的所述主題句所含有的各個實體詞以及各個實體詞的類別。
在本申請的一實施例中,拼接提取模塊包括第三拼接單元,用于將多個所述關鍵句分別與所述主題句進行拼接,得到包含所述上下文信息的增廣樣本集;第四拼接單元,用于根據所述增廣樣本集和已有主題句數據合并得到的增廣主題句數據集提取所述文本信息特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210040192.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于顏色編碼的舌象舌色分類方法及裝置
- 下一篇:一種信息處理方法及裝置





