[發明專利]一種基于用戶行為信息的搜索引擎檢索結果重排序方法有效
| 申請號: | 200710099594.6 | 申請日: | 2007-05-25 |
| 公開(公告)號: | CN101055587A | 公開(公告)日: | 2007-10-17 |
| 發明(設計)人: | 岑榮偉;劉奕群;張敏;金奕江;馬少平 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100084北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 用戶 行為 信息 搜索引擎 檢索 結果 排序 方法 | ||
技術領域
本發明屬于互聯網信息處理領域,特別是涉及信息檢索系統,具體說是利用群體用戶行為信息,對搜索引擎檢索結果進行重排序,提高檢索排序性能的處理方法。
背景技術
搜索引擎是以一定的策略收集互聯網上的信息,對信息進行組織和處理后為用戶提供網絡信息服務的計算機系統,它包括計算機網絡、計算機硬件系統以及在硬件系統上運行的軟件程序三個部分。它的主要作用是幫助用戶快捷、高效的獲取存在于互聯網信息環境中的能夠滿足用戶需求的高質量信息。
目前,通用網絡搜索引擎主要包含信息收集、信息處理和用戶查詢服務三部分。搜索引擎通過被稱為網絡蜘蛛(Spider)的工具根據站點或頁面的URL信息和網頁之間的鏈接關系進行信息收集,用鏈接信息分析器、文本分析器以及索引器對抓取的頁面信息進行整理,進而通過查詢服務器負責與用戶交交互,根據用戶提交的查詢關鍵詞進行檢索,并返回相關結果列表,提供相關信息以滿足用戶的查詢需求。
從使用者的角度看,搜索引擎提供一個包含搜索框的頁面,用戶在搜索框輸入能反映自已需求的查詢關鍵詞,通過瀏覽器提交給搜索引擎后,搜索引擎返回和用戶輸入的內容相關的搜索結果信息列表,用戶進行點擊相關結果頁面,查找所需要的信息。
查詢服務器中的一個關鍵技術是對相關的文檔進行有效排序,使得用戶想要的頁面排在返回結果的前列位置,相關信息更容易被訪問到。從20世紀60年代中期以來,人們提出了大量的文本相似度模型。90年代后,隨著Web頁面的大規模出現,部分相似度模型應用到了網絡信息搜索引擎上,其主要的思想就是“TF*IDF”。當前應用廣泛的模型主要有布爾模型(Boolean?Model),統計模型(Statistical?Model)和語言知識模型(Linguistic?andKnowl?edge-based?Model)。由于這類相似度模型基本上都是基于普通文本檢索提出的,和真實網絡環境上的Web文本信息有一定的區別。另外,各Web站點為提高搜索結果排名,利用相關Spam技術,如在各自的頁面中添加各種關鍵詞,欺騙搜索引擎,提升搜索結果排名,提高站點知名度。
由于網絡檢索的特殊性,用戶提交關鍵詞進行搜索時,其目標頁面并不一定完全是和查詢關鍵詞相關的內容,用戶一般也難于用簡單的幾個關鍵詞對其想要的目標頁面進行合理描述,很多實際檢索任務往往轉化為查找相關的關鍵資源頁面。關鍵資源頁面通常是指一系列相關信息頁面的入口頁面,即用戶能通過該頁面很容易找到自己想要的信息,和傳統的文本信息檢索有很大的不同。
90年代中后期,針對已有的網絡環境和網絡用戶的需求特點,人們開始對Web頁面的質量問題進行相關研究和考察,其中最主要的依據是網絡頁面上的超鏈接結構。超鏈接結構是網絡信息環境與傳統的信息媒介的最大區別之一,是指兩個頁面或頁面的兩個不同部分之間的一種指向關系,包含源頁面和目標頁面,基于鏈接結構提出的技術主要有Pagerank和Hits等算法。Pagerank算法是Google公司的Brin等人根據因特網用戶瀏覽模型建立的超鏈接分析算法,其主要利用超鏈接關系對不同頁面進行一定的質量評級,用頁面對應的評級結果對搜索引擎的搜索結果進行改進,把頁面質量高且相關性好的頁面排在結果前列返回給用戶,能很大程度的提高了實際用戶檢索的滿意度。Pagerank算法的基本架構和實現思路因此也在實際商用搜索引擎的應用中取得了巨大成功。
事實上,盡管各種新模型新技術在搜索引擎中被使用,但還是沒法很好的滿足檢索用戶對信息查詢的滿意度。為盡量提高搜索引擎的搜索性能,很多實際的搜索引擎站點使用一些人工挑選的手段的來提高部分查詢詞的檢索性能,挑選那些用戶經常使用且目標唯一的查詢詞(通常為導航類查詢詞,如“搜狐:www.sohu.com”,)。當用戶檢索時,把人工挑選的相關檢索目標頁面融合在自動檢索的頁面中,通常如放在返回結果頁面前幾位。但由于人工挑選帶來的投入代價太大,而且很難對更大規模的查詢進行人工挑選。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710099594.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





