[發明專利]一種基于字典的搜索詞query糾錯方法及系統在審
| 申請號: | 202310215206.5 | 申請日: | 2023-02-28 |
| 公開(公告)號: | CN116187303A | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 劉弦弦 | 申請(專利權)人: | 北京智通云聯科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/247;G06F40/284;G06F16/33 |
| 代理公司: | 北京八月瓜知識產權代理有限公司 11543 | 代理人: | 王新捷 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 字典 搜索詞 query 糾錯 方法 系統 | ||
本說明書實施例提供了一種基于字典的搜索詞query糾錯方法及系統,其中,方法包括:獲取領域相關專業術語;對所述領域相關專業術語進行預處理,得到所述專業術語的子詞,生成專業術語白字典;通過所述白字典對用戶輸入的搜索詞query中的詞語進行分析糾錯。提高能夠搜索引擎的糾錯效率和準確率,節省用戶的查詢時間。
技術領域
本文件涉及信息檢索技術領域,尤其涉及一種基于字典的搜索詞query糾錯方法及系統。
背景技術
隨著互聯網的普及,互聯網上的信息也越來越豐富,現在人們通過搜索引擎可以便捷的獲取自己想要的信息,信息檢索是當下獲取和查詢信息最重要的途徑之一。但信息檢索在給用戶獲取信息帶來便利的同時,還存在一些不足,比如用戶在進行檢索時由于疏忽或其他原因,輸入了錯誤的檢索語句(query),比如,出現一些同音的字形錯誤、拼音錯誤導致的輸入錯誤或者輸入時漏字等,當用戶輸入錯誤的檢索語句時,信息檢索系統返回的信息可能會偏離用戶的真實意圖,從而影響了用戶體驗。這樣就要求搜索引擎能夠對用戶輸入的錯誤query進行識別,同時將錯誤的部分糾正成用戶需要的query。
現有的搜索引擎對query進行錯誤檢測時,主要通過字典檢測、統計檢測和神經網絡檢測等方法,對于統計檢測和神經網絡檢測,都依賴于用戶的歷史記錄,在項目前期的過程中,很難收集到用戶歷史記錄;基于字典的錯誤檢測,目前常用的有困惑詞語黑字典、正確詞語白字典等,檢測出錯誤時,一般選擇檢出的錯字的同音、近音、同形的字作為候選,然后經過排列組合,根據統計方法判斷最終的正確字,這樣做的缺點是由于同音或者形近字較多,在糾錯時候選較多,計算時間復雜度較高,使得糾錯效率和準確率都較低。
發明內容
本說明書一個或多個實施例提供了一種基于字典的搜索詞query糾錯方法,包括:
獲取領域相關專業術語;
對所述領域相關專業術語進行預處理,得到所述專業術語的子詞,生成專業術語白字典;
通過所述白字典對用戶輸入的搜索詞query中的詞語進行分析糾錯。
本說明書一個或多個實施例提供了一種基于字典的搜索詞query糾錯系統,包括:
數據獲取模塊:用于獲取領域相關專業術語;
字典生成模塊:用于對所述領域相關專業術語進行預處理,得到所述專業術語的子詞,生成專業術語白字典;
分析糾錯模塊:用于通過所述白字典對用戶輸入的搜索詞query中的詞語進行分析糾錯。
本說明書一個或多個實施例提供了一種電子設備,包括:
處理器;以及,
被安排成存儲計算機可執行指令的存儲器,所述計算機可執行指令在被執行時使所述處理器:
獲取領域相關專業術語;
對所述領域相關專業術語進行預處理,得到所述專業術語的子詞,生成專業術語白字典;
通過所述白字典對用戶輸入的搜索詞query中的詞語進行分析糾錯。
本說明書一個或多個實施例提供了一種存儲介質,用于存儲計算機可執行指令,所述計算機可執行指令在被執行時實現以下流程:
獲取領域相關專業術語;
對所述領域相關專業術語進行預處理,得到所述專業術語的子詞,生成專業術語白字典;
通過所述白字典對用戶輸入的搜索詞query中的詞語進行分析糾錯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智通云聯科技有限公司,未經北京智通云聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310215206.5/2.html,轉載請聲明來源鉆瓜專利網。





