[發明專利]一種用于確定網絡資源點的抓取頻率的方法和裝置有效
| 申請號: | 201310522135.X | 申請日: | 2013-10-29 |
| 公開(公告)號: | CN103605670B | 公開(公告)日: | 2017-03-29 |
| 發明(設計)人: | 林英杰;劉曉麗 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市隆安律師事務所11323 | 代理人: | 權鮮枝 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 確定 網絡資源 抓取 頻率 方法 裝置 | ||
1.一種用于確定網絡資源點的抓取頻率的裝置,該裝置包括:
信息抓取單元,適于抓取多個網絡資源點的數據信息;
操作數獲取單元,適于對每個網絡資源點,篩選該網絡資源點的有效信息以及根據所述有效信息獲取在預定的一段第一時間段內的有效交互數據;
等級屬性獲取單元,適于根據所述有效交互數據計算所述多個網絡資源點的活躍度等級屬性;
抓取頻率確定單元,適于根據所述網絡資源點的活躍度等級屬性確定所述網絡資源點的抓取頻率。
2.根據權利要求1所述的裝置,其中,
所述抓取頻率確定單元,適于以所述網絡資源點的活躍度等級屬性作為所述網絡資源點的抓取頻率;或,使用蜘蛛爬蟲獲取所述網絡資源點的初始抓取頻率,使用所述網絡資源點的活躍度等級屬性調整所述初始抓取頻率而確定所述網絡資源點的抓取頻率。
3.如權利要求1所述的裝置,其中,
所述操作數獲取單元,適于獲取在該第一時間段內的該網絡資源點的新增的有效信息的數目、在該第一時間段內所述有效信息被訪問的次數以及在該第一時間段內網絡使用者針對所述有效信息給出反饋的次數中的至少一個。
4.如權利要求1所述的裝置,其中,
所述操作數獲取單元,適于對該網絡資源點的每條信息,判斷該條信息是否為有效信息,若判斷為否,則刪除該條信息,若判斷為是,則進一步抽取在該第一時間段內該信息被訪問的次數,和/或,在該第一時間段內網絡使用者針對該信息給出反饋的次數;和/或,在對該網絡資源點的全部信息進行其是否為有效信息的判斷后,獲取在該第一時間段內新增的有效信息的數目。
5.如權利要求4所述的裝置,其中,
所述操作數獲取單元,適于對每條信息抽取該信息的正文,使用質量評價模型評估所述正文的質量,判斷所述正文的質量是否合格,若判斷為是,則該信息是有效信息,若判斷為否,則該信息不是有效信息。
6.根據權利要求1所述的裝置,其中,
所述信息抓取單元,進一步適于獲取所述多個網絡資源點所屬的類別并根據類別將所述多個網絡資源點分組;
所述操作數獲取單元,適于計算屬于同一分組的所述網絡資源點的有效交互數據的平均值作為該分組的平均有效交互數據;
所述等級屬性獲取單元,適于根據各個網絡資源點的有效交互數據和其所屬分組的平均有效交互數據,計算該網絡資源點的活躍度等級屬性。
7.一種用于確定網絡資源點的抓取頻率的方法,該方法包括:
抓取多個網絡資源點的數據信息;
對每個網絡資源點,篩選該網絡資源點的有效信息以及根據所述有效信息獲取在預定的一段第一時間段內的有效交互數據;
根據所述有效交互數據計算所述多個網絡資源點的活躍度等級屬性;
根據所述網絡資源點的活躍度等級屬性確定所述網絡資源點的抓取頻率。
8.根據權利要求7所述的方法,其中,所述根據所述網絡資源點的活躍度等級屬性確定所述網絡資源點的抓取頻率,包括:
以所述網絡資源點的活躍度等級屬性作為所述網絡資源點的抓取頻率;
或,
使用蜘蛛爬蟲獲取所述網絡資源點的初始抓取頻率,使用所述網絡資源點的活躍度等級屬性調整所述初始抓取頻率而確定所述網絡資源點的抓取頻率。
9.根據權利要求7所述的方法,其中,
所述網絡資源點在預定的一段第一時間段內的有效交互數據包括在該第一時間段內的該網絡資源點的新增的有效信息的數目、在該第一時間段內所述有效信息被訪問的次數以及在該第一時間段內網絡使用者針對所述有效信息給出反饋的次數中的至少一個。
10.根據權利要求7所述的方法,其中,所述篩選該網絡資源點的有效信息以及根據所述有效信息獲取在預定的一段第一時間段內的有效交互數據,具體包括:
對該網絡資源點的每條信息,判斷該條信息是否為有效信息,若判斷為否,則刪除該條信息,若判斷為是,則進一步抽取在該第一時間段內該信息被訪問的次數,和/或,在該第一時間段內網絡使用者針對該信息給出反饋的次數;和/或,
在對該網絡資源點的全部信息進行其是否為有效信息的判斷后,獲取在該第一時間段內新增的有效信息的數目。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310522135.X/1.html,轉載請聲明來源鉆瓜專利網。





