[發明專利]模糊搜索優化方法、裝置、電子設備和可讀存儲介質有效
| 申請號: | 202110943576.1 | 申請日: | 2021-08-17 |
| 公開(公告)號: | CN113641731B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 岳永鵬;周行;柴千祥 | 申請(專利權)人: | 成都知道創宇信息技術有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/31;G06F16/33;G06F40/205;G06F40/289 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 何少巖 |
| 地址: | 610000 四川省成都市高新區中國(四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模糊 搜索 優化 方法 裝置 電子設備 可讀 存儲 介質 | ||
本申請提供一種模糊搜索優化方法、裝置、電子設備和可讀存儲介質,針對號碼庫中的各個已存號碼,將已存號碼按預設位數進行移位分詞處理,得到至少一個第一類索引詞,再將已存號碼進行倒序處理,得到第二類索引詞。此外,將已存號碼作為第三類索引詞,并將至少一個第一類索引詞、第二類索引詞和第三類索引詞,構成已存號碼對應的待搜索詞集。本方案中,可以按實際應用場景進行分詞,避免現有的進行全量分詞存在的占用過多存儲空間的問題,且通過倒序處理,可在匹配時避免由于不同號碼類別在前綴上的差異對匹配造成的干擾,如此,可在避免占用過多空間的基礎上,保障后續的檢索準確性、快捷性。
技術領域
本發明涉及計算機模糊搜索技術領域,具體而言,涉及一種模糊搜索優化方法、裝置、電子設備和可讀存儲介質。
背景技術
在數據的搜索處理領域中,主要包括全文搜索方式和模糊搜索方式,其中,全文搜索方式主要是對每一個詞建立一個索引,指明該詞在詞庫中的位置以及出現的次數。當用戶查詢時,檢索程序根據事先建立的索引進行查找,并將查找的結果反饋給用戶。而模糊搜索方式允許被搜索信息和搜索提問之間存在一定的差異,即做到搜索內容和被匹配內容做到部分的匹配。
目前,在對于號碼查詢搜索處理中,由于號碼的表達形式各種各樣,對于查詢檢索造成困擾。現有的常用處理方式包括,例如將所有的號碼進行標準化處理后進行存儲,以供查詢檢索。這種方式需要明確知道各個號碼所屬的地區,否則難以做到準確的標準化處理。此外,還有采用利用如Elastic?search的正則模糊搜索方式,這種方式存在搜索效率低下、搜索緩慢的缺陷。另外,還有采用n-gram的分詞處理得到全量的分詞結果,以供查詢搜索的方式。這種方式會產生大量的額外數據,導致占用大量的存儲空間的問題。
發明內容
本發明的目的包括,例如,提供了一種模糊搜索優化方法、裝置、電子設備和可讀存儲介質,其能夠避免占用過多存儲資源的情況下保障檢索的準確性和快捷性。
本發明的實施例可以這樣實現:
第一方面,本發明提供一種模糊搜索優化方法,所述方法包括:
針對號碼庫中的各個已存號碼,將所述已存號碼按預設位數進行移位分詞處理,得到至少一個第一類索引詞;
將所述已存號碼進行倒序處理,得到第二類索引詞;
將所述已存號碼作為第三類索引詞,并將所述至少一個第一類索引詞、第二類索引詞和第三類索引詞,構成所述已存號碼對應的待搜索詞集。
在可選的實施方式中,所述方法還包括:
獲取待搜索號碼;
將所述待搜索號碼進行倒序處理,得到倒序號碼;
基于所述待搜索號碼和倒序號碼,對所述號碼庫中各所述待搜索詞集包含的索引詞進行匹配,得到匹配結果。
在可選的實施方式中,各所述已存號碼包含多個元素;
所述將所述已存號碼按預設位數進行移位分詞處理,得到至少一個第一類索引詞的步驟之前,所述方法還包括:
識別出所述已存號碼中包含的多個元素中的字符元素;
將所述已存號碼中除各個字符元素之外的其他元素刪除;
將刪除處理后剩余的各個字符元素按原本在所述已存號碼中的順序進行拼接組合。
在可選的實施方式中,所述將所述已存號碼按預設位數進行移位分詞處理,得到至少一個第一類索引詞的步驟,包括:
將所述已存號碼按從右到左的順序,依次按預設最小位數到預設最大位數的分詞方式對所述已存號碼進行移位分詞處理,得到至少一個第一類索引詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都知道創宇信息技術有限公司,未經成都知道創宇信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110943576.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:壓裝裝置
- 下一篇:一種基于多層神經網絡和支持向量機的隨機信號識別方法





