[發明專利]一種文檔版本集合的計算方法有效
| 申請號: | 202010986308.3 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112149008B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 曾祥宇;王君 | 申請(專利權)人: | 四川工商學院 |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/955;G06F16/182 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司 51230 | 代理人: | 丁存偉 |
| 地址: | 620000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 版本 集合 計算方法 | ||
1.一種文檔版本集合的計算方法,其特征在于,包括如下步驟:
S1、指定產品文檔URL,下載對應時間段的所有快照,以時間戳為文件名變量Fn,快照內容為文件內容Content存儲;
S2.判斷Content是否需大幅度修改,若無修改需單獨保存即保存文檔內容,否則進行下一步;
S3.清除html標簽和時光機的特殊標簽,并將修改后的內容保存為文件內容Content;
S4.計算Content的MD5值,將MD5值和Fn以制表符相隔,并以回車符結束,作為一行內容保存為文件內容Content;
S5.將上述步驟處理完的所有文檔,上傳到Hadoop集群的HDFS文件系統;
S6.Map階段,一個文檔作為一個Map任務處理,以制表符為令牌,將Content拆分,使得key為MD5值,value為Fn,并發送key-value;
S7.Reduce階段,key相同的Map任務會被同一個Reduce收集,對于同一個key,每收集一個value,則計數器count加1,value的值Fn被累加到字符串container,并以空格分隔;其中,key是集合的元素,所有key的Fn數量的和,等于本次任務上傳的所有文檔數量;
S8.對于同一個key,組織輸出內容為key、count和container,它們之間也用空格分隔,container末尾以回車符結束;
S9.從HDFS上取回此次任務的輸出結果。
2.根據權利要求1所述的一種文檔版本集合的計算方法,其特征在于,步驟S3所述清除html標簽是清除以小于號和大于號閉合的HTML標簽,以及所有“script”和“/script”之間的腳本代碼。
3.根據權利要求1所述的一種文檔版本集合的計算方法,其特征在于,步驟S3所述時光機的特殊標簽是兩個特殊引導的標簽“Wayback Rewrite JS Include”和“wayback's'DOMContentLoaded line”,刪除這兩行的所有內容,修改后的內容保存為文件內容Content。
4.根據權利要求1所述的一種文檔版本集合的計算方法,其特征在于,步驟9所述輸出結果采用表格的形式輸出文檔版本的MD5值、擁有該值的所有文檔數量count及時間戳。
5.根據權利要求4所述的一種文檔版本集合的計算方法,其特征在于,所述時間戳以年月日時分秒表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川工商學院,未經四川工商學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010986308.3/1.html,轉載請聲明來源鉆瓜專利網。





