[發明專利]用于顧及當用戶在搜索引擎中提出查詢時的用戶意圖的點擊模型有效
| 申請號: | 201110409156.1 | 申請日: | 2011-11-30 |
| 公開(公告)號: | CN102542003A | 公開(公告)日: | 2012-07-04 |
| 發明(設計)人: | 王剛;陳偉柱;陳正 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 顧嘉運 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 顧及 用戶 搜索引擎 提出 查詢 意圖 點擊 模型 | ||
技術領域
本發明搜索引擎,尤其涉及生成用于搜索引擎的訓練數據的方法。
背景技術
對于連接到萬維網(“web”)的主計算機的用戶而言,采用web瀏覽器和搜索引擎來定位具有用戶感興趣的特定內容的網頁已經是常見的。諸如微軟的Live搜索等搜索引擎索引由全世界的計算機維護的數百億個網頁。主計算機的用戶編撰查詢,而搜索引擎標識匹配這些查詢的頁面或文檔,例如包括查詢的關鍵字的頁面。這些頁面或文檔被稱為結果集。在許多情況下,在查詢時對結果集中的頁面進行排名是計算上昂貴的。
多個搜索引擎在它們的排名技術中依靠許多特征。證據源可包括查詢和頁面或查詢和指向頁面的超鏈接的錨文本之間的文本相似性、例如經由瀏覽器工具欄或通過對搜索結果頁面中的鏈接的點擊來測量的頁面的用戶流行度、以及作為內容提供者之間的對等背簽的形式來查看的頁面之間的超接合(hyper-linkage)。排名技術的有效性能夠影響頁面相對于查詢的相對質量或相關性,以及頁面被查看的概率。
一些現有搜索引擎經由對頁面進行打分的函數來對搜索結果進行排名。該函數從訓練數據中自動習得。訓練數據又通過向人類判定者提供查詢/頁面組合來創建,該人類判定者被要求基于頁面有多好地匹配查詢來標記頁面,例如完美、優秀、良好、一般或差。每一查詢/頁面組合都被轉換成特征向量,特征向量然后被提供給能夠導出歸納訓練數據的函數的機器學習算法。
對于常識查詢,人類判定者能夠得出對頁面有多好地匹配查詢的合理評估是很有可能的。然而,在判定者如何評估查詢/頁面組合時存在廣泛的變化。這部分地是由于對于查詢的較好或較差頁面的先驗知識,以及定義對查詢的“完美”回答的主觀特性(這對于諸如“優秀”、“良好”、“一般”和“差”之類的其他定義亦如此)。實際上,查詢/頁面對通常僅由一個判定者來評估。此外,判定者可能不具有查詢的任何知識并因此提供不正確的評級。最終,web上的大量查詢和頁面暗示將需要判定非常多的對。將該人類判定過程縮放到越來越多的查詢/頁面組合將會是富有挑戰性的。
點擊日志中嵌入關于用戶對搜索引擎的滿意度的重要信息并且能夠提供相關性信息的高度有價值的源。與人類判定者相比,獲取點擊便宜得多并且點擊通常反映當前相關性。然而,已知點擊由于呈現次序、文檔的外觀(例如,標題和摘要)以及各個站點的聲譽而發生偏差。已經作出各種嘗試以解決在分析點擊和搜索結果相關性之間的關系時出現的這種和其他偏差。這些模型包括位置模型、級聯模型以及動態貝葉斯網絡(DNB)模型。
發明內容
具有不同搜索意圖的用戶可能向搜索引擎提交相同的查詢卻期望不同的搜索結果。因此,在用戶搜索意圖和用戶指定的查詢之間可能存在偏差,而導致用戶點擊時可觀察到的差異。換而言之,搜索結果的吸引力不僅受到其相關性的影響,也是由查詢背后用戶潛在的搜索意圖所確定的。由此,用戶點擊可以由意圖偏差和相關性兩者確定。如果用戶沒有清楚地制定其輸入查詢以精確地表達其信息需求,就會有較大的意圖偏差。
在一個實現中,提供包含此處被稱為意圖假設的新的假設的點擊模型。意圖假設假定僅在結果或摘錄符合用戶的搜索意圖,即它是用戶所需的之后才點擊它。由于查詢部分地反映出用戶的搜索意圖,因此如果文檔與查詢無關那么假定根本不需要它是合理的。另一方面,相關文檔是否需要是唯一地受到用戶意圖和查詢之間的間隙的影響。
根據另一實現,生成用于搜索引擎的訓練數據的方法從檢索關于用戶點擊行為的日志數據開始。基于包括參數的點擊模型來分析日志數據以確定多個頁面中每一個頁面與查詢的相關性,該參數涉及表示用戶在執行搜索時的意圖的用戶意圖偏差。接著將頁面的相關性轉換成訓練數據。在一個特定的實現中,點擊模型是包括表示文檔是否被點擊的可觀察到的二進制值以及表示文檔是否被用戶檢查和被用戶需要的隱藏的二進制變量。
提供本發明內容是為了以簡化的形式介紹將在以下具體實施方式中進一步描述的一些概念。本發明內容并不旨在標識出所要求保護的主題的關鍵特征或必要特征,也不旨在用于限定所要求保護的主題的范圍。
附圖簡述
圖1示出了搜索引擎在其中運行的示例性環境100。
圖2描述了意圖、查詢和在會話期間找到的文檔之間的三角關系,其中連接兩個實體的邊度量兩個實體時間的匹配度。
圖3是在為用五個隨機挑選的查詢對兩組搜索會話執行的實驗中每一個查詢的點進率的圖示。
圖4示出了用于圖3中使用的所有搜索查詢的第一和第二組之間的點進率之間的差值的分布。
圖5將檢查假設和意圖假設的圖形模型作比較。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110409156.1/2.html,轉載請聲明來源鉆瓜專利網。





