[發明專利]一種基于字典的搜索詞query糾錯方法及系統在審

申請號：	202310215206.5	申請日：	2023-02-28
公開（公告）號：	CN116187303A	公開（公告）日：	2023-05-30
發明（設計）人：	劉弦弦	申請（專利權）人：	北京智通云聯科技有限公司
主分類號：	G06F40/232	分類號：	G06F40/232;G06F40/247;G06F40/284;G06F16/33
代理公司：	北京八月瓜知識產權代理有限公司 11543	代理人：	王新捷
地址：	100020 北京市朝陽***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于字典搜索詞 query 糾錯方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于字典的搜索詞query糾錯方法，其特征在于，包括：

獲取領域相關專業術語；

對所述領域相關專業術語進行預處理，得到所述專業術語的子詞，生成專業術語白字典；

通過所述白字典對用戶輸入的搜索詞query中的詞語進行分析糾錯。

2.根據權利要求1所述的方法，其特征在于，所述領域相關專業術語的獲取方法包括：從領域相關的業務數據庫中導出，以及通過網絡爬蟲從互聯網獲取相關領域的中文文本數據集。

3.根據權利要求1所述的方法，其特征在于，所述對所述領域相關專業術語進行預處理，得到所述專業術語的子詞具體包括：

將所述領域相關專業術語進行拼音轉換；

分別對所述領域相關專業術語及其轉換后的拼音進行分詞，得到詞語子詞和拼音子詞；

根據分詞后的拼音對所述詞語子詞進行分類，分類時不考慮所述拼音子詞的音調，將拼音相同的詞語子詞分為一類。

4.根據權利要求1所述的方法，其特征在于，所述通過所述白字典對用戶輸入的搜索詞query的詞語進行分析糾錯的具體方法為：

獲取用戶輸入的搜索詞query，對所述搜索詞query進行分詞，得到若干詞語；

針對所述詞語對所述白字典進行查詢，判斷所述白字典中是否包括所述詞語：若包括，則該詞語保留，若不包括，則將該詞語與其在搜索詞query中左右兩邊的詞語分別進行組合，替換得到新的詞語；

將所述詞語進行拼音轉換，根據轉換后的拼音查找同音的拼音子詞，獲取對應的詞語子詞，作為每個詞語的候選詞，若沒有查找到同音的拼音子詞，則候選詞為詞語本身；

根據將所述搜索詞query的詞語順序，拼接所述候選詞生成候選句子；

通過結巴分詞對所述候選句子進行排序，排序靠前的候選句子為正確搜索詞query。

5.一種基于字典的搜索詞query糾錯系統，其特征在于，包括：

數據獲取模塊：用于獲取領域相關專業術語；

字典生成模塊：用于對所述領域相關專業術語進行預處理，得到所述專業術語的子詞，生成專業術語白字典；

分析糾錯模塊：用于通過所述白字典對用戶輸入的搜索詞query中的詞語進行分析糾錯。

6.根據權利要求5所述的系統，其特征在于，所述數據獲取模塊具體用于：

從領域相關的業務數據庫中導出領域相關專業術語；

通過網絡爬蟲從互聯網獲取相關領域的中文文本數據集。

7.根據權利要求5所述的系統，其特征在于，所述字典生成模塊具體用于：

將所述領域相關專業術語進行拼音轉換；

分別對所述領域相關專業術語及其轉換后的拼音進行分詞，得到詞語子詞和拼音子詞；

根據分詞后的拼音對所述詞語子詞進行分類，分類時不考慮所述拼音子詞的音調，將拼音相同的詞語子詞分為一類，生成專業術語白字典。

8.根據權利要求5所述的系統，其特征在于，所述分析糾錯模塊具體用于：

獲取用戶輸入的搜索詞query，對所述搜索詞query進行分詞，得到若干詞語；

根據將所述搜索詞query的詞語順序，拼接所述候選詞生成候選句子；

通過結巴分詞對所述候選句子進行排序，排序靠前的候選句子為正確搜索詞query。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京智通云聯科技有限公司，未經北京智通云聯科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202310215206.5/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種基于LSTM的載人潛水器傳感器故障數據增強方法
下一篇：頁面整合方法、裝置、電子設備及存儲介質

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】