[發明專利]一種基于字典的搜索詞query糾錯方法及系統在審
| 申請號: | 202310215206.5 | 申請日: | 2023-02-28 |
| 公開(公告)號: | CN116187303A | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 劉弦弦 | 申請(專利權)人: | 北京智通云聯科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/247;G06F40/284;G06F16/33 |
| 代理公司: | 北京八月瓜知識產權代理有限公司 11543 | 代理人: | 王新捷 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 字典 搜索詞 query 糾錯 方法 系統 | ||
1.一種基于字典的搜索詞query糾錯方法,其特征在于,包括:
獲取領域相關專業術語;
對所述領域相關專業術語進行預處理,得到所述專業術語的子詞,生成專業術語白字典;
通過所述白字典對用戶輸入的搜索詞query中的詞語進行分析糾錯。
2.根據權利要求1所述的方法,其特征在于,所述領域相關專業術語的獲取方法包括:從領域相關的業務數據庫中導出,以及通過網絡爬蟲從互聯網獲取相關領域的中文文本數據集。
3.根據權利要求1所述的方法,其特征在于,所述對所述領域相關專業術語進行預處理,得到所述專業術語的子詞具體包括:
將所述領域相關專業術語進行拼音轉換;
分別對所述領域相關專業術語及其轉換后的拼音進行分詞,得到詞語子詞和拼音子詞;
根據分詞后的拼音對所述詞語子詞進行分類,分類時不考慮所述拼音子詞的音調,將拼音相同的詞語子詞分為一類。
4.根據權利要求1所述的方法,其特征在于,所述通過所述白字典對用戶輸入的搜索詞query的詞語進行分析糾錯的具體方法為:
獲取用戶輸入的搜索詞query,對所述搜索詞query進行分詞,得到若干詞語;
針對所述詞語對所述白字典進行查詢,判斷所述白字典中是否包括所述詞語:若包括,則該詞語保留,若不包括,則將該詞語與其在搜索詞query中左右兩邊的詞語分別進行組合,替換得到新的詞語;
將所述詞語進行拼音轉換,根據轉換后的拼音查找同音的拼音子詞,獲取對應的詞語子詞,作為每個詞語的候選詞,若沒有查找到同音的拼音子詞,則候選詞為詞語本身;
根據將所述搜索詞query的詞語順序,拼接所述候選詞生成候選句子;
通過結巴分詞對所述候選句子進行排序,排序靠前的候選句子為正確搜索詞query。
5.一種基于字典的搜索詞query糾錯系統,其特征在于,包括:
數據獲取模塊:用于獲取領域相關專業術語;
字典生成模塊:用于對所述領域相關專業術語進行預處理,得到所述專業術語的子詞,生成專業術語白字典;
分析糾錯模塊:用于通過所述白字典對用戶輸入的搜索詞query中的詞語進行分析糾錯。
6.根據權利要求5所述的系統,其特征在于,所述數據獲取模塊具體用于:
從領域相關的業務數據庫中導出領域相關專業術語;
通過網絡爬蟲從互聯網獲取相關領域的中文文本數據集。
7.根據權利要求5所述的系統,其特征在于,所述字典生成模塊具體用于:
將所述領域相關專業術語進行拼音轉換;
分別對所述領域相關專業術語及其轉換后的拼音進行分詞,得到詞語子詞和拼音子詞;
根據分詞后的拼音對所述詞語子詞進行分類,分類時不考慮所述拼音子詞的音調,將拼音相同的詞語子詞分為一類,生成專業術語白字典。
8.根據權利要求5所述的系統,其特征在于,所述分析糾錯模塊具體用于:
獲取用戶輸入的搜索詞query,對所述搜索詞query進行分詞,得到若干詞語;
針對所述詞語對所述白字典進行查詢,判斷所述白字典中是否包括所述詞語:若包括,則該詞語保留,若不包括,則將該詞語與其在搜索詞query中左右兩邊的詞語分別進行組合,替換得到新的詞語;
將所述詞語進行拼音轉換,根據轉換后的拼音查找同音的拼音子詞,獲取對應的詞語子詞,作為每個詞語的候選詞,若沒有查找到同音的拼音子詞,則候選詞為詞語本身;
根據將所述搜索詞query的詞語順序,拼接所述候選詞生成候選句子;
通過結巴分詞對所述候選句子進行排序,排序靠前的候選句子為正確搜索詞query。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智通云聯科技有限公司,未經北京智通云聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310215206.5/1.html,轉載請聲明來源鉆瓜專利網。





