[發(fā)明專利]搜索查詢糾錯系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201710117675.8 | 申請日: | 2017-03-01 |
| 公開(公告)號: | CN107066533B | 公開(公告)日: | 2020-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 孫超博;苗艷軍 | 申請(專利權(quán))人: | 北京奇藝世紀(jì)科技有限公司 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 搜索 查詢 糾錯 系統(tǒng) 方法 | ||
本發(fā)明提供了一種搜索查詢糾錯系統(tǒng)及方法,其中的系統(tǒng)包括:糾錯概率計(jì)算裝置,用于獲取“錯誤查詢詞?正確查詢詞”對,并計(jì)算正確查詢詞被錯寫成錯誤查詢詞的概率作為糾錯概率,其中,錯誤查詢詞中包含一個或多個待建議詞;查詢強(qiáng)度計(jì)算裝置,用于計(jì)算正確查詢詞被搜索的概率作為查詢強(qiáng)度;生成概率計(jì)算裝置,用于生成“正確查詢詞?待建議詞”對,并計(jì)算所述“正確查詢詞?待建議詞”對中正確查詢詞對應(yīng)的錯誤查詢詞被生成待建議詞的概率作為生成概率;關(guān)聯(lián)程度確定裝置,用于根據(jù)所述糾錯概率、所述查詢強(qiáng)度和所述生成概率,計(jì)算待建議詞與正確查詢詞的關(guān)聯(lián)程度。本發(fā)明可提高搜索的效率和精度。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種搜索查詢糾錯系統(tǒng)及方法。
背景技術(shù)
查詢建議(query suggestion)或稱查詢補(bǔ)全(query automatic completion,QAC),是指用戶輸入不完整的查詢(query)時,可自動建議完整query的功能,它是搜索系統(tǒng)的重要組成部分,一方面對于簡化用戶輸入及提升用戶體驗(yàn)有著重要幫助,另一方面,對于引導(dǎo)用戶行為也有顯著效果。
查詢建議系統(tǒng),其本質(zhì)是建立用戶的不完整query或前綴(本發(fā)明統(tǒng)稱之為:待建議詞,token)和完整query之間的關(guān)聯(lián),這種關(guān)聯(lián)一般通過離線的方式實(shí)現(xiàn):對每個query,提取其所有可能的token,直接建立兩者的關(guān)聯(lián);而token對于不同query的分值,則由query的熱度和token與query的匹配度等指標(biāo)計(jì)算得出。在這種框架下,影響查詢建議系統(tǒng)性能的主要因素就是query數(shù)據(jù)源的質(zhì)量,而作為query重要來源的用戶搜索日志,其中難免會包含錯誤的輸入,這就導(dǎo)致查詢建議系統(tǒng)中,往往出現(xiàn)大量錯誤建議結(jié)果。進(jìn)一步地,這類錯誤的搜索結(jié)果,又錯誤地引導(dǎo)了用戶的輸入行為,導(dǎo)致用戶搜索行為中錯誤的比例大量增加,循環(huán)往復(fù),會對搜索系統(tǒng)會產(chǎn)生極大的傷害。
發(fā)明內(nèi)容
為了提高搜索準(zhǔn)確度和效率,本發(fā)明實(shí)施例提供一種搜索查詢糾錯系統(tǒng)及方法。
根據(jù)本發(fā)明的一個方面,提供一種搜索查詢糾錯系統(tǒng),包括:糾錯概率計(jì)算裝置,用于獲取“錯誤查詢詞-正確查詢詞”對,并計(jì)算正確查詢詞被錯寫成錯誤查詢詞的概率作為糾錯概率,其中,錯誤查詢詞中包含一個或多個待建議詞;查詢強(qiáng)度計(jì)算裝置,用于計(jì)算正確查詢詞被搜索的概率作為查詢強(qiáng)度;生成概率計(jì)算裝置,用于生成“正確查詢詞-待建議詞”對,并計(jì)算所述“正確查詢詞-待建議詞”對中正確查詢詞對應(yīng)的錯誤查詢詞被生成待建議詞的概率作為生成概率;關(guān)聯(lián)程度確定裝置,用于根據(jù)所述糾錯概率、所述查詢強(qiáng)度和所述生成概率,計(jì)算待建議詞與正確查詢詞的關(guān)聯(lián)程度。
優(yōu)選的,所述糾錯概率計(jì)算裝置包括:糾錯對獲取單元,用于獲取“錯誤查詢詞-正確查詢詞”對,其中,錯誤查詢詞中包括一個或多個待建議詞;糾錯概率計(jì)算單元,用于根據(jù)錯誤查詢詞與正確查詢詞的相似度,計(jì)算正確查詢詞被錯寫成錯誤查詢詞的概率作為糾錯概率。
優(yōu)選的,所述糾錯對獲取單元具體用于,從用戶日志中獲取到所述“錯誤查詢詞-正確查詢詞”對,其中,通過維護(hù)查詢詞典,將所述用戶日志中的最新的“錯誤查詢詞-正確查詢詞”對添加到所述查詢詞典中;
優(yōu)選的,所述糾錯對獲取單元具體用于,從所述搜索查詢糾錯系統(tǒng)的歷史數(shù)據(jù)中獲取到所述“錯誤查詢詞-正確查詢詞”對,其中,將所述搜索查詢糾錯系統(tǒng)的輸入作為錯誤查詢詞,將所述搜索查詢糾錯系統(tǒng)的輸出作為正確查詢詞。
優(yōu)選的,所述查詢強(qiáng)度計(jì)算裝置具體用于,根據(jù)查詢詞的熱度和/或點(diǎn)擊率,計(jì)算正確查詢詞被用戶搜索的概率作為查詢強(qiáng)度。
優(yōu)選的,還包括:查詢提取裝置,用于從用戶歷史搜索記錄中,提取出正確查詢詞,并將提取出的正確查詢詞提供給所述查詢強(qiáng)度計(jì)算裝置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀(jì)科技有限公司,未經(jīng)北京奇藝世紀(jì)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710117675.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





