[發明專利]一種基于用戶行為信息的搜索引擎檢索結果重排序方法有效
| 申請號: | 200710099594.6 | 申請日: | 2007-05-25 |
| 公開(公告)號: | CN101055587A | 公開(公告)日: | 2007-10-17 |
| 發明(設計)人: | 岑榮偉;劉奕群;張敏;金奕江;馬少平 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100084北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 用戶 行為 信息 搜索引擎 檢索 結果 排序 方法 | ||
1.一種基于用戶行為信息的搜索引擎檢索結果重排序方法,其特征在于該方法是在搜索引擎的計算機上依次按以下步驟實現的:
步驟(1).用戶常用查詢集的篩選:
步驟(1.1).數據預處理:通過搜索引擎網絡服務器從至少一個搜索引擎的用戶日志中提取供基于用戶行為進行搜索結果重排序的用戶信息,形成的用戶信息至少包含以下內容:
Query:用戶提交的查詢;
URL:該查詢對應的用戶點擊的結果頁面地址;
Id:系統自動分配給每個用戶每次使用搜索引擎時的標識號;
所述步驟(1.1)依次含有以下各子步驟:
步驟(1.1.1).把搜索引擎網絡服務器記錄的編碼格式轉換成國家標準漢字編碼的GBK格式;
步驟(1.1.2).去除所述Query、URL、Id以外的信息,并把日志信息整理成所述用戶日志的Query、URL和Id字符串的形式;
步驟(1.1.3).在步驟(1.1.2)的范圍內,再利用KMP的字符串匹配算法過濾用戶查詢中的噪聲信息,僅保留直接反映搜索引擎普通用戶查詢需求行為的內容項;
步驟(1.2).提取查詢用戶數信息:
對于在設定的最近時間段內用戶日志中的用戶提交的每一個查詢Q,統計提交過該查詢Q的用戶數,該用戶數表示了用戶對該查詢Q的關注度;
步驟(1.3).常用查詢集的篩選:
若:某查詢Q在搜索引擎用戶日志中其查詢用戶數小于設定值,則排除在常用查詢集合之外;否則,把該查詢Q放在常用查詢集合S中;
步驟(2).用戶點擊率信息的提取:
步驟(2.1).單搜索引擎用戶點擊率的提取:
步驟(2.2).多搜索引擎下用戶點擊率信息合并,用一個概率表達式P(URL|查詢Q)來表示合并后查詢Q的結果頁面地址URL的用戶點擊率:
其中,P(SEi|查詢Q)表示在第i個搜索引擎日志SEi中查詢Q的概率,用SEi查詢可信度表示:
P(URL|SEi,查詢Q)表示在搜索引擎日志SEi中,對于查詢Q,用戶點擊結果頁面地址URL的點擊率,用步驟(2.1)中所述的方法求出,i=1,2,...,I,因而P(URL|SEi,查詢Q)取值范圍在0~1之間;
步驟(3).利用用戶行為信息進行搜索引擎結果改進:
步驟(3.1).用以下兩種方法之一對用戶點擊的結果頁面進行篩選,再把結果頁面集保存;
固定點擊率和法:
對于查詢Q,尋找根據搜索引擎用戶行為信息的用戶點擊率最大的前M個頁面,該M個頁面滿足以下條件:連續前M個頁面合并后的用戶點擊率之和大于0.8,但連續前M-1個頁面的合并后的用戶點擊率之和小于0.8,而且該M個頁面的用戶點擊率都大于0.1;
固定結果頁面數法:
對于查詢Q,尋找用戶點擊率最大的連續前n個頁面:該n個頁面對應的用戶點擊率都大于0.1,且n≤3;
步驟(3.2).搜索引擎原始檢索結果的獲取:
對于查詢Q,將其提交給指定的搜索引擎得到該搜索引擎的檢索結果序列;
步驟(3.3).基于用戶行為信息的檢索結果合并:
當用戶向指定搜索引擎提交查詢Q進行查詢時,根據步驟(3.2)得到搜索引擎原始結果序列SEQ,同時提交給步驟(3.1)根據用戶日志信息確定的結果頁面集合中查詢得到結果頁面序列LOG,按如下方法合并該兩個序列,將最終結果返回給用戶:
按用戶點擊率大小依次取序列LOG中的每一個結果頁面,放入最終返回結果頁面集,至取完為止;再取序列SEQ中的每一個結果頁面,放入最終返回結果頁面集,至取完為止,若最終返回結果頁面集中已經存在該結果頁面,則不再取該結果頁面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710099594.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





