[發(fā)明專利]基于相關(guān)性分?jǐn)?shù)分布對查詢意圖進(jìn)行分類的方法無效
| 申請?zhí)枺?/td> | 201110415617.6 | 申請日: | 2011-12-13 |
| 公開(公告)號: | CN102411626A | 公開(公告)日: | 2012-04-11 |
| 發(fā)明(設(shè)計)人: | 閆宏飛;劉曉兵;徐谷子;何靖;李鑠 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 相關(guān)性 分?jǐn)?shù) 分布 查詢 意圖 進(jìn)行 分類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)和信息檢索技術(shù)領(lǐng)域,尤其涉及一種基于相關(guān)性分?jǐn)?shù)分布對查詢意圖進(jìn)行分類的方法。
背景技術(shù)
隨著網(wǎng)絡(luò)和信息檢索技術(shù)的發(fā)展和普及,搜索引擎在用戶日常網(wǎng)上活動中占據(jù)了愈發(fā)重要的地位,因而分析用戶在使用搜索引擎時其背后的用戶需求也逐漸成為搜索引擎領(lǐng)域一個重要的研究方向。目前已有的研究發(fā)現(xiàn),出于不同的信息需求,用戶將會選擇不同的搜索結(jié)果。如果搜索引擎能夠推測出用戶的信息需求,那么就可以在此基礎(chǔ)上向用戶提供更符合其要求的搜索結(jié)果,進(jìn)而提升用戶滿意度。
查詢意圖定義為查詢背后的信息需求,用戶的信息需求是多種多樣的,研究中一般會將查詢需求歸納為幾種類別,這樣,對查詢意圖的分析主要就是判定查詢意圖屬于哪一類。
Broder等人[1]在2002年首次提出查詢意圖分類的問題,他們把查詢意圖分成三類,分別是:
1)導(dǎo)航類:即用戶要找到一個導(dǎo)航類的網(wǎng)頁,如一個網(wǎng)站的首頁,一個網(wǎng)站的頻道頁面等。如用戶搜索“新浪”,一般情況下其希望得到的是新浪主頁的鏈接地址。
2)信息類:即用戶希望直接找到一些能夠滿足需求的網(wǎng)頁,這些網(wǎng)頁大多是內(nèi)容型的,通過閱讀這些網(wǎng)頁的內(nèi)容,就能夠收集信息,滿足需求。如用戶搜索“喬布斯去世”,其希望搜集到關(guān)于喬布斯逝世,喬布斯的生平等相關(guān)信息,同時根據(jù)搜索結(jié)果進(jìn)一步修改并精確查詢語句,進(jìn)行多次檢索,滿足其信息需求。此外,在搜索時,信息類的查詢意圖占有最大的比例。
3)事務(wù)類:即用戶希望通過找到一些網(wǎng)頁或者服務(wù),完成某個事務(wù),譬如購買一個選定的商品、下載一個特定的資源、進(jìn)行轉(zhuǎn)賬付款等等。
此外,Rose等人在2004年[2]將查詢意圖分為導(dǎo)航類,信息類和資源類,并且對后兩類進(jìn)行了更細(xì)粒度的劃分。
另外還有一些研究,將查詢意圖定義為商業(yè)類和非商業(yè)類,產(chǎn)品類和非產(chǎn)品類,地理信息類和非地理信息類等等,具體類別的定義應(yīng)該同搜索引擎能夠提供的服務(wù)相關(guān)聯(lián)。
識別用戶的查詢意圖,有助于搜索引擎提供更加能夠滿足用戶信息需求的檢索結(jié)果,搜索引擎可以根據(jù)查詢意圖類型采用不同的檢索模型,或者是對檢索模型設(shè)置不同的參數(shù);根據(jù)查詢意圖的不同,搜索引擎還可以在結(jié)果展示方面做一些優(yōu)化,比如,如果查詢是導(dǎo)航性的,通常會在生成摘要的時候做鏈接展開,如在Google上檢索“新浪”生成的摘要信息主要包含了新浪幾個經(jīng)常訪問的子站點的鏈接;如果能夠識別出查詢具有商業(yè)意圖,那么就可以向用戶投放相關(guān)的廣告,被點擊的概率就會更大。
對于查詢意圖的分類,現(xiàn)有的實現(xiàn)方案主要采用用戶點擊數(shù)據(jù)和錨文本的分布作為分類特征,并選取常用的分類算法,如SVM,DT,Naive?Bayes等,對查詢意圖進(jìn)行分類。由于最初的研究在定義查詢意圖類型的時候有些分歧,后續(xù)的一些研究中主要是將查詢意圖分成導(dǎo)航類和信息類兩種類別,研究方法的差別主要體現(xiàn)為特征選取方法的不同,目前對查詢意圖進(jìn)行分類常用的主要有以下幾種特征,其中nCS、nRS和Click?Distribution(點擊分布)主要是通過挖掘用戶點擊數(shù)據(jù)獲取,Anchor-link?Distribution(錨鏈接分布)主要是通過分析錨文本集合獲取。
1、nCS特征值
根據(jù)較少努力假說[2],如果一個查詢需求是導(dǎo)航類型的,那么用戶很可能在查詢的時候,就已經(jīng)存在明確的目標(biāo)鏈接并且直接點擊返回結(jié)果列表中的相應(yīng)鏈接,即用戶更加傾向于點擊搜索引擎所返回的結(jié)果列表中的一小部分鏈接。根據(jù)以上假說,可以根據(jù)用戶對某一個查詢關(guān)鍵詞的搜索結(jié)果的點擊的個數(shù)來分析他的查詢需求。nCS特征值定義:
2、nRS特征值
根據(jù)覆蓋頁面假說[3],如果一個查詢需求是導(dǎo)航型的,那么用戶更加傾向于點擊搜索引擎所返回的結(jié)果列表中的前幾個鏈接。這是因為,導(dǎo)航類的查詢需求比信息類或者交易類查詢需求在信息檢索上具有更好的表現(xiàn)。因此,對某一查詢關(guān)鍵詞,可以通過分析用戶點擊的鏈接在返回結(jié)果中的排名來判斷查詢的意圖。nRS特征值定義如下:
3、Click?Distribution[4]
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110415617.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





