[發明專利]一種命名實體識別方法、裝置和用于命名實體識別的裝置在審
| 申請號: | 202010614432.7 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111898382A | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 趙海舟;李程遠;李昌杰 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 命名 實體 識別 方法 裝置 用于 | ||
1.一種命名實體識別方法,其特征在于,所述方法包括:
識別目標文本中的主體詞和表現詞;
對所述目標文本中的主體詞和表現詞進行拼接組合,得到候選文本集合;
對所述候選文本集合中的每個候選文本與預定義的實體模板集合進行匹配,得到符合匹配條件的目標實體模板,所述實體模板集合中包括至少一個模板組,每個模板組中包括至少一個實體模板,每個模板組對應一個標準實體;
根據所述目標實體模板所屬模板組對應的標準實體,確定所述目標文本對應的命名實體識別結果。
2.根據權利要求1所述的方法,其特征在于,所述識別目標文本中的主體詞和表現詞之前,所述方法還包括:
構建特征詞典,所述特征詞典中包括預置的特征詞,所述預置的特征詞包括第一數量類別的主體詞和第二數量類別的表現詞;
所述識別目標文本中的主體詞和表現詞,包括:
基于所述特征詞典,識別目標文本中的主體詞和表現詞。
3.根據權利要求2所述的方法,其特征在于,所述特征詞典中還包括每個特征詞對應的同義詞;所述基于所述特征詞典,識別目標文本中的主體詞和表現詞,包括:
對所述目標文本與所述特征詞典進行匹配,得到命中的特征詞和/或命中的同義詞;
根據所述命中的特征詞和/或所述命中的同義詞對應的特征詞,確定所述目標文本中的主體詞和表現詞。
4.根據權利要求1所述的方法,其特征在于,所述對所述目標文本中的主體詞和表現詞進行拼接組合,得到候選文本集合,包括:
按照所述目標文本中的主體詞和表現詞在所述目標文本中出現的順序,將所述目標文本中的主體詞和表現詞劃分為至少一個候選組,每個候選組中包含一個主體詞和至少一個表現詞,且每個候選組的第一個詞為主體詞,最后一個詞為表現詞;
對于待拼接的當前候選組,將所述當前候選組中的主體詞分別與所述當前候選組中的各表現詞進行拼接,得到所述當前候選組對應的候選文本;
根據所述每個候選組對應的候選文本,得到候選文本集合。
5.根據權利要求1所述的方法,其特征在于,所述實體模板集合中的每個實體模板包括如下模板元素:主體詞、表現詞、以及通配符,所述模板元素是基于標準實體與實體文本段的映射關系語料提取得到的。
6.根據權利要求1所述的方法,其特征在于,所述對所述候選文本集合中的每個候選文本與預定義的實體模板集合進行匹配,得到目標實體模板,包括:
對所述候選文本集合中的每個候選文本與預定義的實體模板集合中的各實體模板分別進行模糊匹配,得到所述每個候選文本與所述各實體模板的匹配置信度;
確定所述匹配置信度大于預設閾值的實體模板為目標實體模板。
7.根據權利要求1所述的方法,其特征在于,所述對所述候選文本集合中的每個候選文本與預定義的實體模板集合進行匹配,包括:
對于所述候選文本集合中待匹配的當前候選文本,在所述預定義的實體模板集合中確定待匹配的實體模板,所述待匹配的實體模板中包含與所述當前候選文本中相同的主體詞和/或表現詞;
對所述候選文本集合中的每個候選文本分別與其對應的待匹配的實體模板進行匹配。
8.一種命名實體識別裝置,其特征在于,所述裝置包括:
識別模塊,用于識別目標文本中的主體詞和表現詞;
拼接模塊,用于對所述目標文本中的主體詞和表現詞進行拼接組合,得到候選文本集合;
匹配模塊,用于對所述候選文本集合中的每個候選文本與預定義的實體模板集合進行匹配,得到符合匹配條件的目標實體模板,所述實體模板集合中包括至少一個模板組,每個模板組中包括至少一個實體模板,每個模板組對應一個標準實體;
確定模塊,用于根據所述目標實體模板所屬模板組對應的標準實體,確定所述目標文本對應的命名實體識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010614432.7/1.html,轉載請聲明來源鉆瓜專利網。





