[發明專利]文本信息處理方法及其裝置、存儲介質在審
| 申請號: | 202110545929.2 | 申請日: | 2021-05-19 |
| 公開(公告)號: | CN113128196A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 蔣樂怡 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/295;G06F40/30;G06F16/35;G06N20/00 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 譚英強;梁嘉琦 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息處理 方法 及其 裝置 存儲 介質 | ||
1.一種文本信息處理方法,其特征在于,包括以下步驟:
獲取待處理文本;
識別所述待處理文本中的目標主體名稱;
獲取候選實體名稱;
判斷所述目標主體名稱的名稱類型與所述候選實體名稱的名稱類型的一致性;
當所述目標主體名稱的名稱類型與所述候選實體名稱的名稱類型相一致,計算所述目標主體名稱與所述候選實體名稱的相似度參數,將符合匹配條件的相似度參數對應的候選實體名稱,確定為所述目標主體名稱對應的目標實體名稱;
當所述目標主體名稱的名稱類型與所述候選實體名稱的名稱類型不一致,獲取與所述目標主體名稱匹配的目標備選主體名稱,獲取所述目標備選主體名稱的映射屬性信息,根據所述映射屬性信息確定所述目標主體名稱對應的目標實體名稱。
2.根據權利要求1所述的文本信息處理方法,其特征在于,所述計算所述目標主體名稱與所述候選實體名稱的相似度參數,包括:
將所述候選實體名稱按照屬性類型進行分詞處理得到多個第一目標單詞;
將所述目標主體名稱按照屬性類型進行分詞處理得到多個第二目標單詞;
在多個所述第一目標單詞和多個所述第二目標單詞中,對屬性類型相同的所述第一目標單詞和所述第二目標單詞進行相似度計算,得到多個相似度得分;
求取多個所述相似度得分的平均值得到所述相似度參數。
3.根據權利要求2所述的文本信息處理方法,其特征在于,所述屬性類型相同的所述第一目標單詞和所述第二目標單詞包括屬于地點屬性類型的所述第一目標單詞和所述第二目標單詞;
所述對屬性類型相同的所述第一目標單詞和所述第二目標單詞進行相似度計算,包括:
對屬于地點屬性類型的所述第一目標單詞進行分詞處理得到第一區域地點信息和第二區域地點信息,其中,所述第一區域地點信息和所述第二區域地點信息為不同行政區域級別的區域地點信息;
對屬于地點屬性類型的所述第二目標單詞進行分詞處理得到第三區域地點信息和第四區域地點信息,其中,所述第三區域地點信息和所述第一區域地點信息為相同行政區域級別的區域地點信息,所述第四區域地點信息和所述第二區域地點信息為相同行政區域級別的區域地點信息;
對所述第一區域地點信息和所述第三區域地點信息進行相似度計算;
對所述第二區域地點信息和所述第四區域地點信息進行相似度計算。
4.根據權利要求3所述的文本信息處理方法,其特征在于,所述第一區域地點信息和所述第三區域地點信息為屬于省市級別的地點信息;
所述對所述第一區域地點信息和所述第三區域地點信息進行相似度計算,包括:
對所述第一區域地點信息進行數據清洗得到第一關鍵詞信息;
對所述第三區域地點信息進行數據清洗得到第二關鍵詞信息;
對所述第一關鍵詞信息和所述第二關鍵詞信息進行相似度計算。
5.根據權利要求2所述的文本信息處理方法,其特征在于,所述將所述目標主體名稱按照屬性類型進行分詞處理得到多個第二目標單詞,包括:
將所述目標主體名稱按照屬性類型進行分詞處理得到多個單詞信息;
當所述待處理文本包括有與所述目標主體名稱對應的地點信息,并且所述多個單詞信息中不具有屬于地點屬性類型的單詞信息,識別所述待處理文本中的所述地點信息,根據所述地點信息和所述多個單詞信息得到多個第二目標單詞;
當所述待處理文本包括有與所述目標主體名稱對應的行業信息,并且所述多個單詞信息中不具有屬于行業屬性類型的單詞信息,識別所述待處理文本中的所述行業信息,根據所述行業信息和所述多個單詞信息得到多個第二目標單詞。
6.根據權利要求1所述的文本信息處理方法,其特征在于,所述匹配條件為相似度參數大于或等于預設相似度閾值;
所述將符合匹配條件的相似度參數對應的候選實體名稱,確定為所述目標主體名稱對應的目標實體名稱,包括:
將大于或等于預設相似度閾值的相似度參數對應的候選實體名稱,確定為所述目標主體名稱對應的目標實體名稱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110545929.2/1.html,轉載請聲明來源鉆瓜專利網。





