[發明專利]一種文檔版本集合的計算方法有效
| 申請號: | 202010986308.3 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112149008B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 曾祥宇;王君 | 申請(專利權)人: | 四川工商學院 |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/955;G06F16/182 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司 51230 | 代理人: | 丁存偉 |
| 地址: | 620000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 版本 集合 計算方法 | ||
本發明公開了一種文檔版本集合的計算方法,屬于計算機和大數據應用交叉領域;本發明包括如下步驟:指定URL下載快照,以時間戳為文件名Fn,快照內容為文件內容Content存儲;清除html標簽和時光機的特殊標簽,并將修改后的內容保存;計算Content的MD5值,并修改Content為MD5值、制表符和Fn;上傳所有文檔到Hadoop集群的HDFS文件系統;Map階段,將Content拆分,使得key為MD5值,value為Fn,并發送key?value;Reduce階段,累加相同key的計數,將value的值Fn連接到container;對于同一個key,組織輸出內容為key、count和container。
技術領域
一種文檔版本集合的計算方法,是基于互聯網時光機(wayback machine)抓取數據的文檔版本管理方法,屬于計算機和大數據應用交叉領域。
背景技術
公布在互聯網的某URL(Uniform Resource Locator,統一資源定位符)是說明文檔,通常是該產品的最新版本;一般地,用戶可以從時光機查看到某URL所存儲的所有說明書文檔,以時間點進行存儲,即時光機爬蟲抓取的時間。
如果在過去十年內,該產品更新了許多版本,只要用戶使用的不是該產品的最新版本,則無法在公布的說明文檔URL上得到使用文檔,通過時光機也無法準確得到某個版本的產品文檔。
MD5信息摘要算法(MD5 Message-Digest Algorithm)是一種密碼散列函數,可以產生出一個128位的散列值,用于確保信息傳輸完整一致;將一個文件的所有二進制內容進行MD5計算,就得到文件的MD5值,其特點是,即使只有一個字節被修改,修改前后文件的MD5值也會發生變化;許多語言庫函數支持MD5計算,比如PHP語言調用函數MD5(文件名)可以計算得到文件的MD5值。
Hadoop是一個由Apache基金會開發的可運行于大規模計算機集群上的分布式并行編程開源框架,原來是全文檢索引擎Lucene的子項目,設計之初是為了處理Lucene抓取的海量索引,包括存儲和計算,后來獨立成為一個分布式基礎構架;它主要包括文件系統HDFS和計算模型MapReduce等模塊,MapReduce可以讓開發者不用關心分布式計算框架的實現細節,而主要編寫自己的處理邏輯;MapReduce程序的核心步驟分兩部分:Map和Reduce,Map收到一個計算作業時,首先把計算作業拆分成若干個Map任務,分配到不同的節點上去執行,每一個Map任務處理輸入數據的一部分,一般以“鍵-值對”(key-value)方式存儲Map任務處理結果,當Map任務完成后會生成一些中間文件,這些中間文件作為Reduce任務的輸入數據,Reduce對數據的“鍵-值對”做進一步組合處理后輸出最終結果;HDFS是分布式文件存儲與管理系統,一般建立在操作系統的本地文件系統基礎之上,供集群網絡的節點使用,在HDFS上,大文件會被分隔成多個數據塊分布存儲,其高效訪問模式是一次寫入、多次讀取。
HTML(Hyper Text Markup Language)稱為超文本標記語言,是一種標識性的語言,它包括一系列標簽,通過這些標簽可以將網絡上的文檔格式統一,使分散的Internet資源連接為一個邏輯整體;HTML通常由瀏覽器讀取,按照其標簽的要求向用戶展示內容,標簽由小于號開始,大于號結束,由瀏覽器負責解釋,一般并不會展示在用戶內容上。
本發明主要清洗HTML標簽,以及所有“script”和“/script”之間的腳本代碼,因為此間代碼一般不用于閱讀,只用于邏輯判定,若代碼帶時間戳則會影響MD5值的計算,所以刪除,這樣得到接近瀏覽器展示的文檔內容,然后計算文檔內容的MD5值,最后計算相同MD5值的元素,組成文檔的版本集合。
發明內容
本發明的目的在于:提供一種文檔版本集合的計算方法,通過文擋集合對比,簡化了查新、查重的工作。
本發明采用的技術方案如下:一種文檔版本集合的計算方法,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川工商學院,未經四川工商學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010986308.3/2.html,轉載請聲明來源鉆瓜專利網。





