[發明專利]一種基于Hadoop的海量小文件緩存方法
| 申請號: | 201810500093.2 | 申請日: | 2018-05-22 |
| 公開(公告)號: | CN108932288B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 魏文國;彭建烽;謝桂園;戴青云;蔡君;趙慧民 | 申請(專利權)人: | 廣東技術師范大學 |
| 主分類號: | G06F16/172 | 分類號: | G06F16/172;G06F16/13;G06F16/182 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 梁順宜;郝傳鑫 |
| 地址: | 510665 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 海量 文件 緩存 方法 | ||
1.一種基于Hadoop的海量小文件緩存方法,其特征在于,包括:
獲取用戶訪問日志記錄,并從所述用戶訪問日志記錄中統計得出活躍用戶集;
結合對數線性模型,計算出所述活躍用戶集中每個活躍用戶訪問過的文件的熱度預測值,并按照熱度預測值由大到小將各文件進行排序,將排名前20%的文件標記為熱點文件;
獲取所述熱點文件,并采用Hbase數據庫緩存所述熱點文件的相關信息;
所述從所述用戶訪問日志記錄中統計得出活躍用戶集,具體為:
篩選出所述用戶訪問日志記錄中訪問資源后綴名以jpg結尾的記錄行;其中,所述記錄行包括:用戶IP、訪問頁面URL、訪問起始時間、訪問狀態、訪問流量;
編寫日志解析類對所述記錄行進行解析,并使用一個二維數組來存儲訪問者IP和小文件名;
遍歷所述二維數組中的訪問者IP,并使用HashMap集合統計每一個訪問者IP訪問量;所述HashMap集合的Key值為訪問者IP,Value值是訪問量;
對所述HashMap集合按照Value值來進行降序排序,篩選出排名靠前20%的訪問者IP,使用ArrayList集合存儲該IP子集,并標記為活躍用戶集;
所述結合對數線性模型,計算出所述活躍用戶集中每個活躍用戶訪問過的文件的熱度預測值,并按照熱度預測值由大到小將各文件進行排序,將排名前20%的文件標記為熱點文件,具體為:
將從所述ArrayList集合提取出的訪問者IP,與從所述二維數組中提取出訪問者IP進行匹配;
當匹配成功后,以匹配成功的訪問者IP作為關鍵詞,查詢出每個用戶的訪問起始時間,再結合對數線性模型,計算出所述活躍用戶集中每個活躍用戶訪問過的文件的熱度預測值,并按照熱度預測值由大到小將各文件進行排序,將排名前20%的文件標記為熱點文件;
所述對數線性模型為:ln Ni=k(t)ln Ni(t)+b(t);
其中,Ni為文件i的熱度預測值,Ni(t)為文件i在觀察時間內的訪問量,觀察時間長度為t。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東技術師范大學,未經廣東技術師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810500093.2/1.html,轉載請聲明來源鉆瓜專利網。





