[發(fā)明專利]KAD網(wǎng)絡中由關鍵詞哈希值推測關鍵詞的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310556473.5 | 申請日: | 2013-11-11 |
| 公開(公告)號: | CN103605708B | 公開(公告)日: | 2017-12-08 |
| 發(fā)明(設計)人: | 程學旗;馮凱;孫慶;劉備;席鵬弼;王元卓;劉悅 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業(yè)知識產權代理有限公司11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | kad 網(wǎng)絡 關鍵詞 哈希值 推測 方法 系統(tǒng) | ||
技術領域
本發(fā)明涉及對等網(wǎng)絡技術,尤其涉及一種KAD網(wǎng)絡中由關鍵詞哈希值推測關鍵詞的方法及系統(tǒng)。
背景技術
近年來隨著P2P技術的飛速發(fā)展,P2P的流量已占據(jù)了互聯(lián)網(wǎng)流量的48%~80%。其體系結構也不斷發(fā)生演變,從最初的非結構化對等網(wǎng)絡,到目前的結構化對等網(wǎng)絡。分布式哈希表(DHT)是實現(xiàn)結構化對等網(wǎng)絡的主要技術。Kademlia(KAD)協(xié)議是DHT的一種實現(xiàn),是美國紐約大學P etar Maymounkov和David Mezieres在2002年發(fā)表的一項研究成果。通過獨特的異或算法(XOR)為距離度量基礎,建立了一種全新的DHT拓撲結構,與其他算法相比大大提高了路由查詢速度。
隨著eMule的普及以及其對Kademlia協(xié)議的支持,使得KAD成為目前被廣泛部署和應用的DHT網(wǎng)絡,其共享和傳輸?shù)馁Y源(包括關鍵詞資源、文件資源)數(shù)量更是數(shù)以億計。在KAD網(wǎng)絡中,節(jié)點ID是用一個128位的二進制字符串來表示的。通常在節(jié)點第一次啟動時通過MD4哈希函數(shù)生成該節(jié)點的ID,哈希的隨機性保證了節(jié)點的均勻性和無碰撞。KAD網(wǎng)絡資源中,關鍵詞資源用于索引文件的信息,其在KAD網(wǎng)絡中的數(shù)據(jù)形式為<key,value>,其中key是對由分詞規(guī)則分割文件名得到的關鍵詞使用哈希函數(shù)生成的ID值(即關鍵詞哈希值),value則包括了含有該關鍵詞的文件資源的一系列信息,如文件名、文件大小、文件ID等。在進行關鍵詞資源搜索時,KAD會先使用MD4哈希函數(shù)計算出關鍵詞的哈希值,再進行迭代查找。
從關鍵詞得到ID值采用的MD4算法是一種不可逆算法,而如何從關鍵詞哈希值來推測關鍵詞信息具有重要意義。例如,在KAD網(wǎng)絡中根據(jù)檢測到的關鍵詞哈希值推測流行詞匯,再根據(jù)流行詞匯采取進一步的動作,以達到安全監(jiān)管的目的。然而,目前還沒有任何研究成果能夠實現(xiàn)這一目標。
發(fā)明內容
根據(jù)本發(fā)明的一個實施例,提供一種KAD網(wǎng)絡中由關鍵詞哈希值推測關鍵詞的方法,所述方法包括:
步驟1)、利用關鍵詞哈希值在KAD網(wǎng)絡中搜索相關資源文件,得到所述相關資源文件的文件名;
步驟2)、對所述相關資源文件的文件名進行分詞處理,得到候選關鍵詞及其在所述相關資源文件的文件名中出現(xiàn)的次數(shù);
步驟3)、根據(jù)候選關鍵詞在所述相關資源文件的文件名中出現(xiàn)的次數(shù)推測關鍵詞。
在一個實施例中,步驟3)包括:
選擇在所述相關資源文件的文件名中出現(xiàn)次數(shù)大于等于預定閾值的候選關鍵詞;
當所選擇的候選關鍵詞的個數(shù)大于1時,對所選擇的候選關鍵詞進行哈希計算,將哈希計算的結果與所述關鍵詞哈希值相同的候選關鍵詞作為推測結果;
當所選擇的候選關鍵詞的個數(shù)等于1時,將該候選關鍵詞作為推測結果;
否則,確定推測結果為空。
在進一步的實施例中,所述預定閾值為所述相關資源文件的個數(shù)。
在一個實施例中,步驟2)包括:
找到所述相關資源文件的文件名中的分詞符,將由所述分詞符隔開的詞作為候選關鍵詞;以及
計算所述候選關鍵詞在所述相關資源文件的文件名中出現(xiàn)的次數(shù)。
在進一步的實施例中,所述分詞符包括標點符號。
根據(jù)本發(fā)明的一個實施例,還提供一種KAD網(wǎng)絡中由關鍵詞哈希值推測關鍵詞的系統(tǒng),所述系統(tǒng)包括:
搜索模塊,用于利用關鍵詞哈希值在KAD網(wǎng)絡中搜索相關資源文件,得到所述相關資源文件的文件名;
推測模塊,用于對所述相關資源文件的文件名進行分詞處理,得到候選關鍵詞及其在所述相關資源文件的文件名中出現(xiàn)的次數(shù);以及根據(jù)候選關鍵詞在所述相關資源文件的文件名中出現(xiàn)的次數(shù)推測關鍵詞。
在一個實施例中,所述推測模塊用于選擇在所述相關資源文件的文件名中出現(xiàn)次數(shù)大于等于預定閾值的候選關鍵詞;
當所選擇的候選關鍵詞的個數(shù)大于1時,對所選擇的候選關鍵詞進行哈希計算,將哈希計算的結果與所述關鍵詞哈希值相同的候選關鍵詞作為推測結果;
當所選擇的候選關鍵詞的個數(shù)等于1時,將該候選關鍵詞作為推測結果;
否則,確定推測結果為空。
在一個實施例中,推測模塊用于找到所述相關資源文件的文件名中的分詞符,將由所述分詞符隔開的詞作為候選關鍵詞;以及計算所述候選關鍵詞在所述相關資源文件的文件名中出現(xiàn)的次數(shù)。
采用本發(fā)明可以準確地得到KAD網(wǎng)絡中關鍵詞哈希值對應的關鍵詞信息,便于監(jiān)管網(wǎng)絡、提高網(wǎng)絡安全。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310556473.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:煙囪排放的顆粒物粉塵凈化設備
- 下一篇:橋牌競賽信息錄入裝置及方法
- 面向eMule文件享系統(tǒng)的綜合污染方法
- 一種eMule網(wǎng)絡上特定資源的發(fā)現(xiàn)方法和裝置
- KAD網(wǎng)絡中由關鍵詞哈希值推測關鍵詞的方法及系統(tǒng)
- 一種KAD網(wǎng)絡資源信息的獲取方法及系統(tǒng)
- 一種獲取KAD網(wǎng)絡上熱門檢索資源的方法和系統(tǒng)
- 充電樁控制箱(KAD_109H6)
- 一種鋁電解天車加料發(fā)訊控制裝置、天車
- 指紋讀頭(KAD_109F5_R)
- 一種適于P2P即時通信的Kad算法的優(yōu)化方法
- 一種實現(xiàn)KAD網(wǎng)絡節(jié)點快速路由的方法和系統(tǒng)
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質
- 神經網(wǎng)絡的訓練方法、裝置及存儲介質
- 網(wǎng)絡管理方法和裝置





