[發明專利]基于內容引用的網頁搜索結果排序方法無效
| 申請號: | 200910081203.7 | 申請日: | 2009-03-30 |
| 公開(公告)號: | CN101526956A | 公開(公告)日: | 2009-09-09 |
| 發明(設計)人: | 高嵩;周強 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/20 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司 | 代理人: | 朱 琨 |
| 地址: | 100084北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內容 引用 網頁 搜索 結果 排序 方法 | ||
1.基于內容引用的網頁搜索結果排序方法,其特征在于,所述方法是在信息檢索系統的計算機上依次按以下步驟實現的:
步驟(1)初始化
步驟(1.1)建立相關網頁獲取模塊、網頁正文獲取模塊、文本分塊模塊、引用列表建立模塊以及網頁排名計算模塊,其中:
相關網頁提取模塊,根據用戶輸入的查詢詞,用Google搜索引擎從互聯網上獲取與所述查詢詞相關的網頁,組成網頁集合,
網頁正文提取模塊,從所述相關網頁獲取模塊輸入所建的網頁集合,使用jericho-html-2.5工具包進行各網頁的正文抽取工作,把各網頁轉化為純文本格式,文本分塊模塊,從所述網頁正文抽取模塊輸入各網頁的正文,把各個網頁切分為每10個漢字為一塊的文本塊,在句號或換行符處結束當前塊,并進行塊對齊,若當前塊不足5個漢字,則把當前塊與上一塊合并,然后,把每個純文本文件用一個文本塊列表表示,
引用列表建立模塊,從所述文本分塊模塊逐個輸入全部待處理網頁中的文本塊,對于每一個所述網頁,對其中每一個文本塊,按照以下步驟建立該文本塊的網頁引用列表,根據一讀入的所述全部待處理網頁中的文本塊,建立一個塊索引表,采取哈希表的格式,關鍵詞為該文本塊的內容,其對應值為一個列表,該列表中存儲了該文本塊的網頁編號,構成網頁列表,
以后每輸入一個文本塊,便通過所述塊索引表查找所輸入的文本塊所對應的網頁列表:
若:所讀入的文本塊不包含在所述塊索引表內,則把己讀入的文本塊加入到所述塊索引表中,所指向的網頁列表中只包含當前網頁,
若:所讀入的文本塊已包含在所述塊索引表的一個或多個稱為引用塊的文本塊中,如果在該塊索引表中相應的一個或多個文本塊已有N個網頁,則所讀入的文本塊便檢測到N個引用,再把所讀入的文本塊所在的那個當前網頁也加入網頁列表,得到對應于所讀入文本塊的網頁索引列表,
上述網頁正文抽取模塊、文本分塊模塊、以及用應列表建立模塊共同構成了一個引用次數計算模塊,簡稱引用計算模塊,
網頁排名計算模塊,按照以下步驟生成網頁排名序列:
使用Sogou互聯網語料庫作為大規模互聯網語料庫,生成無效引用列表,所述無效引用塊是指只包含廣告文字、論壇導航信息、版權聲明在在內的與所述用戶查詢詞完全無關的引用塊,
從所述引用列表建立模塊輸入的所述網頁引用列表,
生成兩個集合:待處理集合P與結果集合S,初始值為空,
把全部待處理網頁放入所述待處理集合P,
檢查塊索引表,對于每一個待處理網頁而言,針對每一個關鍵字若對應的值列表包含多于一個網頁,則其中任何兩個網頁之間記為一次引用,若該文本塊在引用時包含的漢字大于5個,且也不出現在所述無效引用表中,則對引用塊雙方網頁均進行加分,所述引用雙方分別為當前計算的網頁與該文本塊對應的網頁列表中的每一個網頁,加分分值為:該文本塊長度,也稱引用塊長度/網頁長度,并回放在所述集合P中,選取分數最高的網頁放入結果集合S中,并在所述集合P中加以刪除,并再重復此步驟,
若所述集合S中的網頁個數滿足要求,或所述集合P為空,則結束,否則把正在做排序計算的網頁中所有的文本塊以所述塊索引表中山區,再計算下一個網頁;
步驟(1.2)程序初始化
步驟(1.2.1)置引用黑名單為空,
步驟(1.2.2)把與各類用戶查詢詞相關的各類所有網頁的網頁全集輸入所述引用計算模塊,把得到的引用列表中引用次數最多的前M個文本塊作為引用黑名單;
步驟(2)接受用戶輸入的查詢詞,依次按一下步驟得出排序結果:
步驟(2.1)用所述網頁獲取模塊獲取與用戶輸入的查詢詞相關的網頁集合,
步驟(2.2)讀入步驟(1.2.2)得到的引用黑名單,并以此作為引用列表建立時與讀入的每一個文本塊所對照時用的無效塊索引表,
步驟(2.3)把步驟(2.1)得到的網頁集合列入所述引用列表建立模塊,得到一個對應于用戶輸入的查詢詞的網頁引用列表,
步驟(2.4)把步驟(2.3)得到的網頁引用列表輸入所述網頁排名計算模塊,得到網頁排序表。
2.根據權利要求1所述的基于內容引用的網頁搜索結果排序方法,其特征在于,所述M=50。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910081203.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據存儲方法和裝置
- 下一篇:寫入數據的方法及裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





