[發明專利]一種文本模糊匹配方法和裝置在審
| 申請號: | 202010213163.3 | 申請日: | 2020-03-24 |
| 公開(公告)號: | CN113449522A | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 曹希保;曾楚偉;李斌 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/2458 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 汪阮磊 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 模糊 匹配 方法 裝置 | ||
1.一種文本模糊匹配方法,其特征在于,包括:
獲取待模糊匹配詞;
基于所述待模糊匹配詞從預設詞集合中確定目標分詞,其中,所述預設詞集合包括至少一個分詞,所述目標分詞的詞前綴包含所述待模糊匹配詞,且所述目標分詞的第一相鄰分詞的詞前綴不包含所述待模糊匹配詞;
基于所述目標分詞和映射關系對,獲取所述目標分詞對應的目標文檔標識,所述目標文檔標識對應的文檔包含所述目標分詞,所述映射關系對包括分詞與文檔標識之間的映射關系;
將所述目標文檔標識添加到所述待模糊匹配詞的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配詞匹配的文檔標識;
基于所述目標分詞的第二相鄰分詞,更新所述模糊匹配集;
基于更新后的模糊匹配集,獲取所述待模糊匹配詞的模糊匹配結果。
2.根據權利要求1所述的方法,其特征在于,所述基于所述目標分詞的第二相鄰分詞,更新所述模糊匹配集,包括:
當所述目標分詞的第二相鄰分詞的詞前綴包含所述待模糊匹配詞時,基于所述映射關系對,獲取所述目標分詞的第二相鄰分詞對應的文檔標識;
將所述目標分詞的第二相鄰分詞對應的文檔標識添加到所述模糊匹配集中;
將所述目標分詞的第二相鄰分詞作為新的目標分詞,返回執行所述基于所述映射關系對,獲取所述目標分詞的第二相鄰分詞對應的文檔標識的步驟,直到所述目標分詞的第二相鄰分詞的詞前綴不包含所述待模糊匹配詞。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
對原始文本進行分詞處理,得到所述原始文本的至少一個分詞;
基于所述分詞的字節,從所述分詞中截取至少一個詞后綴;
獲取所述詞后綴對應的文檔標識,所述文檔標識對應的文檔包含所述詞后綴;
建立所述分詞和所述文檔標識之間的映射關系,得到所述分詞的映射關系對。
4.根據權利要求3所述的方法,其特征在于,所述基于所述分詞的字節,從所述分詞中截取至少一個詞后綴,包括:
基于所述分詞的字節,從所述分詞中截取至少一個詞后綴,所述詞后綴的字節長度不小于預設字節長度。
5.根據權利要求3所述的方法,其特征在于,所述建立所述分詞和所述文檔標識之間的映射關系,得到所述分詞的映射關系對,包括:
對所述分詞的各個詞后綴對應的文檔標識進行融合,得到所述分詞對應的文檔標識集;
建立所述分詞和所述文檔標識集之間的映射關系,得到所述分詞的映射關系對。
6.根據權利要求3所述的方法,其特征在于,所述建立所述分詞和所述文檔標識之間的映射關系,得到所述分詞的映射關系對之后,還包括:
根據各個分詞的預設排列順序,將所述分詞對應的映射關系對存儲于多級存儲區;
所述基于所述目標分詞和映射關系對,獲取所述目標分詞對應的目標文檔標識,包括:
從所述多級存儲區中提取所述目標分詞對應的映射關系對,基于提取的映射關系對,獲取所述目標分詞對應的目標文檔標識。
7.根據權利要求6所述的方法,其特征在于,所述根據各個分詞的預設排列順序,將所述分詞對應的映射關系對存儲于多級存儲區,包括:
從多級存儲區中確定需要存儲映射關系對的當前存儲區;
根據各個分詞的預設排列順序,將所述分詞對應的映射關系對存儲于所述當前存儲區;
在所述當前存儲區滿足預設條件時,則將所述當前存儲區中存儲的映射關系對存儲在所述當前存儲區的下一級存儲區中;
將所述下一級存儲區作為所述當前存儲區,返回執行所述在所述當前存儲區滿足預設條件時,則將所述當前存儲區中存儲的映射關系對存儲在所述當前存儲區的下一級存儲區中的步驟。
8.根據權利要求6所述的方法,其特征在于,所述基于所述待模糊匹配詞從預設詞集合中確定目標分詞,包括:
根據多級存儲區的每一級存儲區中的分詞的預設排列順序和所述待模糊匹配詞,從每一級存儲區的預設詞集合中確定目標分詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010213163.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種超柔性透明半導體薄膜及其制備方法
- 下一篇:管路連接裝置





