[發明專利]一種基于MapReduce框架的網頁排序方法和系統在審
| 申請號: | 201410409929.X | 申請日: | 2014-08-19 |
| 公開(公告)號: | CN104156457A | 公開(公告)日: | 2014-11-19 |
| 發明(設計)人: | 宗棟瑞;郭美思;吳楠 | 申請(專利權)人: | 浪潮(北京)電子信息產業有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王丹;李丹 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mapreduce 框架 網頁 排序 方法 系統 | ||
1.一種基于MapReduce框架的網頁排序方法,其特征在于,應用于Hadoop集群中的MapReduce框架,所述MapReduce框架包括Map模塊和Reduce模塊,所述方法包括以下步驟:
S1、所述Map模塊從文本文件中讀取與各個網頁對應的數據記錄,根據讀取到的數據記錄,生成并保存與各個網頁對應的鏈接信息,并對與各個網頁對應的積分信息進行初始化和保存;
S2、所述Map模塊根據與各個網頁對應的積分信息,生成并保存與各個網頁對應的出度信息;
S3、所述Reduce模塊獲取與各個網頁對應的鏈接信息和出度信息,根據與各個網頁對應的鏈接信息和出度信息,更新各個網頁的貢獻積分;
S4、所述Reduce模塊判斷是否滿足預設的收斂條件,如果是,則執行步驟S6;否則,返回步驟S5;
S5、所述Reduce模塊根據更新后的各個網頁的貢獻積分,對與各個網頁對應的積分信息進行更新和保存,并返回步驟S2;
S6、所述Reduce模塊將與更新后的各個網頁的貢獻積分對應的網頁排序結果輸出。
2.如權利要求1所述的方法,其特征在于,所述步驟S1,具體為:
所述Map模塊將各個網頁的URL作為鍵,將各個網頁包含的正向鏈接的URL作為值,生成與各個網頁對應的第一鍵值對,將所述第一鍵值對作為鏈接信息存儲到本地文件系統中;對各個網頁的貢獻積分進行初始化,并將各個網頁的URL作為鍵,將各個網頁的貢獻積分以及各個網頁包含的正向鏈接的URL作為值,生成與各個網頁對應的第二鍵值對,并將所述第二鍵值對作為積分信息存儲到本地文件系統中。
3.如權利要求1所述的方法,其特征在于,所述步驟S2,具體為:
所述Map模塊根據與各個網頁對應的積分信息,獲取各個網頁的URL以及各個網頁包含的正向鏈接的URL,獲取各個網頁的網頁ID以及各個網頁的出度數量,將各個網頁的網頁ID作為鍵,將各個網頁的貢獻積分與出度數量的比值作為值,生成與各個網頁對應的第三鍵值對,并將所述第三鍵值對作為出度信息存儲到本地文件系統中。
4.如權利要求1所述的方法,其特征在于,所述步驟S3,具體為:
所述Reduce模塊根據與各個網頁對應的鏈接信息,確定各個網頁的反向鏈接所在的網頁,并根據確定出的網頁對應的出度信息中包含的該網頁的貢獻積分與出度數量的比值,計算各個網頁的貢獻積分,并將計算結果作為更新后的各個網頁的貢獻積分。
5.如權利要求1所述的方法,其特征在于,所述Reduce模塊判斷是否滿足預設的收斂條件,具體為:
所述Reduce模塊根據更新前后的各個網頁的貢獻積分,判斷各個網頁的貢獻積分是否發生變化,如果發生變化,則確定不滿足預設的收斂條件;否則,確定滿足預設的收斂條件;
或者,
所述Reduce模塊獲取與更新前后的各個網頁的貢獻積分對應的網頁排序結果,判斷所述網頁排序結果是否發生變化,如果發生變化,則確定不滿足預設的收斂條件;否則,確定滿足預設的收斂條件;
或者,
所述Reduce模塊判斷各個網頁的貢獻積分的更新次數是否達到預設次數,如果是,則確定滿足預設的收斂條件;否則,確定不滿足預設的收斂條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮(北京)電子信息產業有限公司,未經浪潮(北京)電子信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410409929.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能看護系統
- 下一篇:搜索詞的糾錯方法和裝置





