[發明專利]一種實體召回方法及相關裝置在審
| 申請號: | 202011032199.8 | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112183097A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 孫俊;蔡國慶 | 申請(專利權)人: | 深圳追一科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F40/35;G06F16/332 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王學強 |
| 地址: | 518000 廣東省深圳市南山區粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 召回 方法 相關 裝置 | ||
本申請實施例公開了一種實體召回方法,用于在語義識別時,提高實體召回流程的正確率。本申請的實體召回方法包括:獲取目標字典,所述目標字典配置有至少一個實體名稱的類型和至少兩個實體名稱的塊屬性;獲取候選實體名稱集;確認所述候選實體名稱集中的一個實體名稱為第一實體名稱,其中所述第一實體名稱為所述目標字典中配置有類型的實體名稱,且所述第一實體名稱包含配置了塊屬性的第二實體名稱;根據所述目標字典從所述實體名稱集中找出第三實體名稱;所述第三實體名稱的塊屬性與所述第二實體名稱的塊屬性相同;按照所述第一實體名稱的類型對所述第三實體名稱進行補全,得到第四實體名稱;對所述第四實體名稱進行實體召回,得到目標命名實體。
技術領域
本申請涉及自然語言處理領域,尤其涉及一種實體召回方法及相關裝置。
背景技術
命名實體識別(Named Entity Recognition,NER),又稱作“專名識別”,是自然語言處理中的一項基礎任務。命名實體一般指文本中具有特定意義或者指代性強的實體,通常包括人名、地名、機構名、日期時間、各領域的專有名詞等。
目前的自然語言問答場景中,常見的實體召回方式是以深度學習模型為主,通過序列標注模型識別實體名稱的提及邊界,然后通過索引庫文本匹配召回符合的實體。
在會話中,用戶經常會省略前面提及過的部分內容,現有的基于深度學習的實體識別方法會因會話內容的缺省導致而識別不到缺省內容的實體,導致最終的識別不準確。
發明內容
針對上述問題,本申請第一方面提供一種實體召回方法,包括:
獲取目標字典,所述目標字典配置有至少一個實體名稱的類型和至少兩個實體名稱的塊屬性;
獲取候選實體名稱集;
確認所述候選實體名稱集中的一個實體名稱為第一實體名稱,其中所述第一實體名稱為所述目標字典中配置有類型的實體名稱,且所述第一實體名稱包含配置了塊屬性的第二實體名稱;
根據所述目標字典從所述實體名稱集中找出第三實體名稱;所述第三實體名稱的塊屬性與所述第二實體名稱的塊屬性相同;
按照所述第一實體名稱的類型對所述第三實體名稱進行補全,得到第四實體名稱;
對所述第四實體名稱進行實體召回,得到目標命名實體。
可選地,所述對所述第四實體名稱進行實體召回,得到目標命名實體,包括:
對所述第三實體名稱和第四實體名稱進行實體召回,得到目標命名實體。
可選地,所述對所述第三實體名稱和第四實體名稱進行實體召回,得到目標命名實體,包括:
對所述第三實體名稱進行實體召回,得到第一目標命名實體集;
對所述第四實體名稱進行實體召回,得到第二目標命名實體集;
確認所述第一實體名稱集和所述第二實體名稱集中重合的實體名稱為目標命名實體。
可選地,所述實體召回方法還包括:
根據所述第三實體名的文本特征和/或所述第四實體名稱的文本特征對所述目標命名實體進行評分;
按照所述評分的結果對所述目標命名實體進行排列,得到目標命名實體的排列順序。
可選地,所述目標字典中還配置有至少一個實體名稱的必要塊屬性;
在所述對所述第一實體名稱和第二實體名稱進行實體召回,得到目標命名實體之后,所述方法還包括:
根據所述目標字典檢測所述目標命名實體是否存在對應的必要塊屬性;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳追一科技有限公司,未經深圳追一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011032199.8/2.html,轉載請聲明來源鉆瓜專利網。





