[發(fā)明專利]使用路徑受約束的隨機(jī)游走的查詢擴(kuò)展和查詢-文檔匹配有效
| 申請?zhí)枺?/td> | 201480042201.6 | 申請日: | 2014-07-24 |
| 公開(公告)號: | CN105659225B | 公開(公告)日: | 2019-09-13 |
| 發(fā)明(設(shè)計(jì))人: | J·高;G·徐;J·徐 | 申請(專利權(quán))人: | 微軟技術(shù)許可有限責(zé)任公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/953 |
| 代理公司: | 永新專利商標(biāo)代理有限公司 72002 | 代理人: | 劉瑜;王英 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 使用 路徑 約束 隨機(jī) 游走 查詢 擴(kuò)展 文檔 匹配 | ||
在本文中所描述的各種技術(shù)涉及使用路徑受約束的隨機(jī)游走來進(jìn)行查詢擴(kuò)展和/或查詢文檔匹配。來自搜索日志的點(diǎn)進(jìn)數(shù)據(jù)被表示為帶標(biāo)記并且有向的圖。基于輸入查詢在圖上執(zhí)行路徑受約束的隨機(jī)游走。所述圖包括:第一節(jié)點(diǎn)集合,其表示包括在來自搜索日志的點(diǎn)進(jìn)數(shù)據(jù)中的查詢;第二節(jié)點(diǎn)集合,其表示包括在來自搜索日志的點(diǎn)進(jìn)數(shù)據(jù)中的文檔;第三節(jié)點(diǎn)集合,其表示來自查詢和文檔的單詞;以及在節(jié)點(diǎn)之間的邊,所述邊表示在查詢、文檔和單詞之間的關(guān)系。路徑受約束的隨機(jī)游走包括在所述圖的節(jié)點(diǎn)之間的邊上進(jìn)行的遍歷。此外,至少部分地基于路徑受約束的隨機(jī)游走,計(jì)算在目標(biāo)節(jié)點(diǎn)和表示輸入查詢的源節(jié)點(diǎn)之間的關(guān)系的得分。
背景技術(shù)
項(xiàng)錯(cuò)配(term mismatch)可能成為在執(zhí)行搜索時(shí)的挑戰(zhàn)。例如,一項(xiàng)查詢(query)與其相關(guān)文檔往往是使用不同詞匯和語言風(fēng)格來構(gòu)成的,這會導(dǎo)致項(xiàng)錯(cuò)配。搜索引擎所利用的將文檔匹配到查詢的常規(guī)算法可能由于項(xiàng)錯(cuò)配而受到不利影響,并且因此,常常采用查詢擴(kuò)展(QE)來解決這樣的挑戰(zhàn)。查詢擴(kuò)展(query expansion)能夠利用另外的相關(guān)項(xiàng)(稱作“擴(kuò)展項(xiàng)”)來對由用戶發(fā)起的查詢進(jìn)行擴(kuò)展,以使得能夠檢索到更相關(guān)的文檔。
已經(jīng)實(shí)現(xiàn)了各種常規(guī)QE技術(shù)以用于信息檢索(IR)。一些基于自動相關(guān)反饋(例如,顯式反饋和偽相關(guān)反饋(PRF))的傳統(tǒng)QE技術(shù)能夠增強(qiáng)IR的表現(xiàn)。然而,這樣的技術(shù)可能無法直接應(yīng)用于商業(yè)網(wǎng)絡(luò)搜索引擎,因?yàn)橄嚓P(guān)的文檔可能是不可用的。此外,偽相關(guān)文檔的生成可以采用多相位檢索,這要實(shí)時(shí)執(zhí)行可能是昂貴并且耗時(shí)的。
最近發(fā)展的QE技術(shù)利用搜索日志(例如,點(diǎn)進(jìn)(click-through)數(shù)據(jù))。這些技術(shù)稱為基于日志的QE,也能夠從(偽)相關(guān)文檔的集合中得出擴(kuò)展項(xiàng)用于查詢。然而,與基于自動相關(guān)反饋的技術(shù)不同,可以用基于日志的QE技術(shù)根據(jù)記錄在搜索日志中的用戶點(diǎn)擊(click)來識別相關(guān)的集合。例如,通過將先前已針對輸入查詢點(diǎn)擊過的文檔包括進(jìn)來,能夠形成該查詢的(偽)相關(guān)文檔的集合。許多常規(guī)的基于日志的QE技術(shù)使用根據(jù)搜索日志預(yù)先計(jì)算出的全局模型。該模型能夠捕獲在查詢項(xiàng)和文檔項(xiàng)之間的相互關(guān)系,并且能夠被用來即時(shí)(on the fly)為輸入查詢生成擴(kuò)展項(xiàng)。
盡管基于日志的QE技術(shù)的有效性,這樣的方法仍可能苦于各種問題。例如,數(shù)據(jù)稀疏性能夠?qū)谌罩镜腝E技術(shù)的有效性造成影響。如齊普夫定律(Zipf's law)所陳述的,大部分的查詢在搜索日志中可能幾乎沒有或完全沒有點(diǎn)擊。此外,搜索意圖的模糊性能夠?qū)谌罩镜腝E技術(shù)造成不利影響。例如,項(xiàng)相互關(guān)系模型(term correlation model)可能無法將查詢項(xiàng)“book”在“school book(學(xué)校用書)”中與在“hotel booking(酒店預(yù)訂)”中的搜索意圖相區(qū)分。雖然通過使用基于詞組(phrase)和概念的相互關(guān)系模型可以部分地緩解該問題,但可能存在這樣的場景:其中在不使用全局上下文的情況下不能夠正確地識別搜索意圖。例如,查詢“為什么六瓶一包”可能是關(guān)于包裝的,而“極品烘焙面包”的查詢意圖可能關(guān)心的是在加利福尼亞尋找一家面包店。在這樣的情況下,該輸入查詢的(偽)相關(guān)文檔的集合,如果可得的話,可能是比全局相互關(guān)系模型更可能保留原始搜索意圖的。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于微軟技術(shù)許可有限責(zé)任公司,未經(jīng)微軟技術(shù)許可有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201480042201.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 路徑搜索系統(tǒng)、路徑搜索終端和路徑搜索方法
- 路徑計(jì)算方法、路徑計(jì)算單元及路徑計(jì)算系統(tǒng)
- 路徑顯示裝置、路徑顯示方法、路徑顯示程序及路徑顯示系統(tǒng)
- 路徑引導(dǎo)裝置、路徑引導(dǎo)方法及路徑引導(dǎo)程序
- 路徑搜索系統(tǒng)、路徑搜索方法及路徑搜索程序
- 路徑引導(dǎo)裝置、路徑引導(dǎo)方法以及路徑引導(dǎo)程序
- 路徑搜索系統(tǒng)、路徑搜索方法以及路徑搜索程序
- 路徑搜索裝置、路徑搜索系統(tǒng)及路徑搜索方法
- 路徑輸出方法、路徑輸出系統(tǒng)和路徑輸出程序
- 路徑評價(jià)裝置、路徑評價(jià)系統(tǒng)、路徑評價(jià)方法以及路徑評價(jià)程序
- 隨機(jī)數(shù)生成設(shè)備及控制方法、存儲器存取控制設(shè)備及通信設(shè)備
- 隨機(jī)接入方法、用戶設(shè)備、基站及系統(tǒng)
- 真隨機(jī)數(shù)檢測裝置及方法
- 隨機(jī)元素生成方法及隨機(jī)元素生成裝置
- 數(shù)據(jù)交互方法、裝置、服務(wù)器和電子設(shè)備
- 一種隨機(jī)數(shù)發(fā)生器的多隨機(jī)源管理方法
- 用于彩票行業(yè)的隨機(jī)數(shù)獲取方法及系統(tǒng)
- 隨機(jī)接入方法、裝置及存儲介質(zhì)
- 偽隨機(jī)方法、系統(tǒng)、移動終端及存儲介質(zhì)
- 模型訓(xùn)練方法、裝置和計(jì)算設(shè)備





