[發明專利]搜索查詢糾錯系統及方法有效
| 申請號: | 201710117675.8 | 申請日: | 2017-03-01 |
| 公開(公告)號: | CN107066533B | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 孫超博;苗艷軍 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索 查詢 糾錯 系統 方法 | ||
1.一種搜索查詢糾錯系統,其特征在于,包括:
糾錯概率計算裝置,用于獲取“錯誤查詢詞-正確查詢詞”對,并根據錯誤查詢詞與正確查詢詞的相似度,計算正確查詢詞被錯寫成錯誤查詢詞的概率作為糾錯概率,其中,錯誤查詢詞中包含一個或多個待建議詞;
查詢強度計算裝置,用于根據查詢詞的熱度和/或點擊率,計算正確查詢詞被搜索的概率作為查詢強度;
生成概率計算裝置,用于生成“正確查詢詞-待建議詞”對,并根據所述“正確查詢詞-待建議詞”對,計算所述“正確查詢詞-待建議詞”對中正確查詢詞對應的錯誤查詢詞被生成待建議詞的概率作為生成概率;
關聯程度確定裝置,用于根據所述糾錯概率、所述查詢強度和所述生成概率,計算待建議詞與正確查詢詞的關聯程度。
2.如權利要求1所述的系統,其特征在于,所述糾錯概率計算裝置包括:
糾錯對獲取單元,用于獲取“錯誤查詢詞-正確查詢詞”對,其中,錯誤查詢詞中包括一個或多個待建議詞;
糾錯概率計算單元,用于根據錯誤查詢詞與正確查詢詞的相似度,計算正確查詢詞被錯寫成錯誤查詢詞的概率作為糾錯概率。
3.如權利要求2所述的系統,其特征在于,所述糾錯對獲取單元具體用于,從用戶日志中獲取到所述“錯誤查詢詞-正確查詢詞”對,其中,通過維護查詢詞典,將所述用戶日志中的最新的“錯誤查詢詞-正確查詢詞”對添加到所述查詢詞典中。
4.如權利要求2所述的系統,其特征在于,所述糾錯對獲取單元具體用于,從所述搜索查詢糾錯系統的歷史數據中獲取到所述“錯誤查詢詞-正確查詢詞”對,其中,將所述搜索查詢糾錯系統的輸入作為錯誤查詢詞,將所述搜索查詢糾錯系統的輸出作為正確查詢詞。
5.如權利要求1所述的系統,其特征在于,還包括:
查詢提取裝置,用于從用戶歷史搜索記錄中,提取出正確查詢詞,并將提取出的正確查詢詞提供給所述查詢強度計算裝置。
6.如權利要求1所述的系統,其特征在于,所述生成概率計算裝置包括:
“正確查詢詞-待建議詞”對生成單元,用于根據所述糾錯概率和所述查詢強度,確定所述“正確查詢詞-待建議詞”對;
生成概率計算單元,用于根據所述“正確查詢詞-待建議詞”對,計算所述“正確查詢詞-待建議詞”對中正確查詢詞對應的錯誤查詢詞被生成待建議詞的概率作為生成概率。
7.如權利要求6所述的系統,其特征在于,所述生成概率計算單元還用于:確定待建議詞的使用頻率;其中,待建議詞的使用頻率越低,生成概率越高。
8.如權利要求1-7任一項所述的系統,其特征在于,所述關聯程度確定裝置采用如下公式計算待建議詞與正確查詢詞的關聯程度:
其中,p(real|token)表示待建議詞與正確查詢詞的關聯程度,p(real)表示所述查詢強度,p(wrong|real)表示所述糾錯概率,p(token|wrong,real)表示所述生成概率。
9.如權利要求1-7任一項所述的系統,其特征在于,所述糾錯概率計算裝置具體還用于,對所述錯誤查詢詞進行語義/詞義分析,通過對錯誤查詢詞提取前綴及非前綴的方式,獲取到一個或多個待建議詞。
10.一種搜索查詢糾錯方法,其特征在于,包括:
獲取用戶輸入的查詢詞;
將所述用戶輸入的查詢詞作為待建議詞輸入到所述權利要求1-9任一項所述的系統,得到待建議詞與正確查詢詞的關聯程度;
根據待建議詞與正確查詢詞的關聯程度,向用戶展示正確查詢詞。
11.如權利要求10所述的方法,其特征在于,所述正確查詢詞為多個,所述方法還包括:
根據待建議詞與各個正確查詢詞的關聯程度從高至低,向用戶展示各個正確查詢詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710117675.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生成企業橫縱向關系圖的方法及系統
- 下一篇:多源數據聚合方法及系統





