[發明專利]一種支持語義聯想的輕量級文本模糊搜索的方法有效
| 申請號: | 201911331527.1 | 申請日: | 2019-12-21 |
| 公開(公告)號: | CN111125308B | 公開(公告)日: | 2023-02-21 |
| 發明(設計)人: | 裴正奇;黃梓忱;段必超;段朦麗;朱斌斌 | 申請(專利權)人: | 深圳前海黑頓科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/247;G06F40/289;G06F40/30 |
| 代理公司: | 北京化育知識產權代理有限公司 11833 | 代理人: | 涂琪順 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 支持 語義 聯想 輕量級 文本 模糊 搜索 方法 | ||
1.一種支持語義聯想的輕量級文本模糊搜索的方法,其特征在于,所述搜索方法包括以下步驟:
S1、技術場景建模,文本模糊搜索問題可轉換為在長文本中查詢短文本的問題,長文本與短文本均為一連串的字符序列;
S2、語義聯想圖譜,為保證運算的輕量,提前搭建語義聯想圖譜并將之存儲以供直接調用,而非現場再進行運算;
S3、模糊搜索方案,給定長文本S={s1,s2,s3,…sn},給定搜索請求Q={q1,q2,q3,…qm};
S4、搜索任務自動劃分,對于篇幅較大的長文本S,可以對其進行自動的任務劃分處理,根據特定的終止符,對長文本S進行分段處理,之后逐段進行3的運算;
S5、內部加速與多線程加速,對于S3中的算法方案的各個環節,進行內部加速處理;
S6、接口封裝,為便于此文本模糊搜索模塊的靈活應用,可將其以接口產品的形式進行封裝,其輸入參數格式如下:bluE(S,Q,autoSplit,isImagine,stop_words),其中autoSplit、isImagine均為布爾類型的數值,autoSplit決定其是否采取自動化任務劃分的運行機制,isImagine決定是否開啟聯想模式,stop_words為autoSplit模式中自定義的終止符。
2.根據權利要求1所述的一種支持語義聯想的輕量級文本模糊搜索的方法,其特征在于,所述S1中的字符包括漢字、英文字母、數字和特殊字符。
3.根據權利要求1所述的一種支持語義聯想的輕量級文本模糊搜索的方法,其特征在于,所述S3中模糊搜索方案取決于用戶是否開啟語義聯想功能,如若不開啟,則模糊搜索將以字符為基礎,S與Q的構成單元直接為字符;若開啟語義聯想功能,則首先需對S與Q進行分詞處理。
4.根據權利要求1所述的一種支持語義聯想的輕量級文本模糊搜索的方法,其特征在于,所述S3中模糊搜索的算法包括多層級卷積字符密度加權匹配算法和臨對角公共子序列匹配算法。
5.根據權利要求1所述的一種支持語義聯想的輕量級文本模糊搜索的方法,其特征在于,在進行所述S3的運算之前可以進行“初瞥”判別,其思路如下:bluE(S,Q)==Trueiflen(set(Q)set(S))>len(set(Q))×0.5。
6.根據權利要求4所述的一種支持語義聯想的輕量級文本模糊搜索的方法,其特征在于,所述多層級卷積字符密度加權匹配算法的卷積運算中,可事先判斷S_conv是否擁有足夠多的非零值單元,否則便不對其執行卷積運算。
7.根據權利要求4所述的一種支持語義聯想的輕量級文本模糊搜索的方法,其特征在于,所述多層級卷積字符密度加權匹配算法的卷積求和運算里,利用外部工具如numpy進行輔助。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳前海黑頓科技有限公司,未經深圳前海黑頓科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911331527.1/1.html,轉載請聲明來源鉆瓜專利網。





