[發(fā)明專利]一種eDonkey網(wǎng)絡共享文件及客戶端信息爬取方法有效
| 申請?zhí)枺?/td> | 201010263210.1 | 申請日: | 2010-08-26 |
| 公開(公告)號: | CN101916291A | 公開(公告)日: | 2010-12-15 |
| 發(fā)明(設計)人: | 楊加;馬皓;宋維佳;張蓓;周淵 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08;H04L29/06 |
| 代理公司: | 北京萬象新悅知識產權代理事務所(普通合伙) 11360 | 代理人: | 蘇愛華 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 edonkey 網(wǎng)絡 共享 文件 客戶端 信息 方法 | ||
1.一種通過關鍵詞查詢獲取eDonkey網(wǎng)絡共享文件及客戶端信息爬取方法,其特征是,該方法包括以下步驟:
A.設置多個常用詞語,并將這些詞語放置在列表S中;
B.確定要爬取的服務器的查詢結果上限m;
C.把要查詢的全部關鍵詞放在隊列Q中;
D.進行關鍵詞查詢;其實現(xiàn)方法如下:
1)從隊列Q的頭部取出一個關鍵詞w,同時把w從Q中刪除;
2)設置計數(shù)器c為0;
3)向服務器查詢關鍵詞w;
4)如果查詢結果數(shù)目大于m*95%,執(zhí)行下面的操作;否則執(zhí)行7);
5)如果c<8,則向服務器發(fā)出“查詢更多結果”請求,查詢尚未返回的其它結果,并將計數(shù)器c的值加1,然后執(zhí)行4);否則執(zhí)行下面的操作;
6)將常用詞表S中的每一個詞v分別與w組合為新的關鍵詞“v?w”,且滿足w不包含S中任何一個詞,如果至少有一個新的關鍵詞產生,則將全部新生成的關鍵詞加入到隊列Q的尾部,并執(zhí)行1);否則執(zhí)行下面的操作;
7)如果Q不為空,執(zhí)行1);否則執(zhí)行下面的操作;
8)結束。
2.如權利要求1所述的方法,其特征是,所述隊列Q為一個先進先出的數(shù)據(jù)結構。
3.如權利要求2所述的方法,其特征是,所述步驟B的實現(xiàn)方法如下:
B1.從常用詞列表S中取出n個最常用的詞,作為查詢服務器用的關鍵詞;
B2.針對每一個關鍵詞,分別向服務器進行關鍵詞查詢;
B3.比較每個關鍵詞的查詢結果數(shù)目,找出最大的數(shù)目m;
B4.服務器的查詢結果上限為m。
4.如權利要求3所述的方法,其特征是,所述步驟B1中n的取值為5<n≤20。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經(jīng)北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010263210.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:碳纖維石英加熱管
- 下一篇:一種搜索顯示數(shù)據(jù)的方法及裝置
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質
- 網(wǎng)絡管理方法和裝置





