[發明專利]基于交互信息的網頁點擊描述文檔構建方法及裝置有效
| 申請號: | 201010109586.7 | 申請日: | 2010-02-09 |
| 公開(公告)號: | CN101789018A | 公開(公告)日: | 2010-07-28 |
| 發明(設計)人: | 周博;劉奕群;張敏;金奕江;馬少平;茹立云;楊磊 | 申請(專利權)人: | 清華大學;北京搜狗科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 廖元秋 |
| 地址: | 100084 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 交互 信息 網頁 點擊 描述 文檔 構建 方法 裝置 | ||
技術領域
本發明涉及互聯網信息檢索技術領域,特別涉及一種基于用戶與搜索引擎之間的基于交互信息的網頁點擊描述文檔進行網頁檢索的方法及裝置。?
背景技術
隨著網絡的不斷普及,搜索引擎已經成為用戶從互聯網中獲取知識的主要手段。目前,用戶與搜索引擎進行交互的方式主要是:用戶將所要尋找的信息轉換成查詢詞,再將這些查詢詞提交搜索引擎,最后由搜索引擎完成信息的檢索并提交給用戶。?
然而,用戶輸入的查詢詞往往長度有限,據統計,目前搜索引擎所接受查詢詞的平均長度只有2-3個字。搜索引擎有時很難從2-3個字長度的查詢清楚的推測出用戶實際的信息需求。因此,為了提升搜索引擎的性能,更好的滿足用戶的信息需求,目前搜索引擎主要通過兩種方式彌補用戶輸入查詢詞的信息缺失。?
第一種方式是查詢擴展,即通過各種已經具備的知識或者數據挖掘出的知識對用戶輸入的查詢詞進行擴展,使得擴展后的查詢能夠更加清晰的描述用戶的信息需求,從而提升搜索引擎的檢索性能。?
另一種方式是構建網頁描述文檔,即通過各種已經具備的知識或者數據挖掘出的知識構建網頁的描述文檔,其中網頁描述文檔一般需要具備能夠描述網頁主要內容或者主題思想的性質。網頁描述文檔可以有效增加目標網頁與用戶查詢匹配的概率。?
目前,構建網頁描述文檔的技術主要是:通過網頁鏈接文本構建目標網頁的網頁描述文檔,但是這種構建網頁描述文檔方法存在著以下的缺點:?
1)需要首先提取并分析互聯網中所有網頁的鏈接文本,該過程會耗費巨大的計算資源與計算開銷。?
2)網頁鏈接文本只是網頁設計者對于目標網頁的描述,僅僅體現了網頁設計者對于網頁主題的認識,然而這種認識有時并不客觀,也不全面。?
發明內容
本發明的目的旨在至少解決上述技術缺陷之一,特別是解決目前通過網頁鏈接文本構建目標網頁的網頁描述文檔所引起的缺陷。?
為實現以上目的,本發明一方面提出了一種基于交互信息的網頁點擊描述文檔的進行網頁檢索的方法,其特征在于,包括以下步驟:提取搜索日志中用戶與搜索引擎的交互信息,并根據所述交互信息建立所述用戶提交的查詢與所述用戶所點擊網頁檢索結果之間的聯系;根據所述交互信息建立初始的點擊描述文檔;根據查詢引導的點擊量計算所述初始點擊描述文檔中的不同詞語的權重;根據所述權重及初始的點擊描述文檔生成網頁點擊描述文檔;以及基于網頁文檔和所生成的網頁點擊描述文檔,利用所述搜索引擎進行搜索,其中對于搜索日志中的每一條點擊事件記錄<useri,queryj,urlk>,根據以下公式建立初始的點擊描述文檔:ClickDoc(urlk)=ClickDoc(urlk)∪queryj,其中,useri表示用戶,queryj表示用戶提交的查詢詞,urlk表示用戶點擊的URL,ClickDoc(urlk)表示urlk的初始的點擊描述文檔。?
在本發明的一個實施例中,所述提取搜索日志中用戶與搜索引擎的交互信息包括:根據用戶訪問日志中的IP信息、用戶ID、查詢詞和用戶點擊事件發生時間將所述用戶的訪問記錄分成多個會話單位,其中,同一個會話單位的訪問記錄具有相同的IP信息、用戶ID、查詢詞。?
在本發明的一個實施例中,同一會話單位中訪問記錄的用戶點擊事件發生時間的最小值和最大值不超過30分鐘。?
在本發明的一個實施例中,還包括:過濾單個會話單元中用戶所點擊檢?索結果的URL(統一資源定位符)的重復記錄,同一會話單位中對于同一個URL的點擊只能計算一次以防止用戶的點擊作弊行為。?
在本發明的一個實施例中,根據以下公式計算所述初始點擊描述文檔中的不同詞語的權重:?其中,IncomClick(q,d)表示所有以查詢q開始,并點擊了文檔d的點擊事件,|IncomClick(q,d)|表示點擊事件集合的元素數目,D代表全體網頁集合。?
在本發明的一個實施例中,根據網頁文檔和生成的網頁點擊描述文檔進行檢索的相似度計算公式包括:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;北京搜狗科技發展有限公司,未經清華大學;北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010109586.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





