[發明專利]海量片段數據匯聚的系統和方法無效
| 申請號: | 201110375167.2 | 申請日: | 2011-11-23 |
| 公開(公告)號: | CN102456076A | 公開(公告)日: | 2012-05-16 |
| 發明(設計)人: | 王亮;孫晉超;楊祖明;張栗偉 | 申請(專利權)人: | 北京安天電子設備有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 海量 片段 數據 匯聚 系統 方法 | ||
技術領域
本發明涉及計算機數據庫領域,尤其涉及一種對海量片段數據進行處理,對其合并和匯聚的系統和方法。
背景技術
在計算機領域中有這樣一類文件,稱其為片段,它們是某個整體文件或數據的一部分。且分為兩種:
1、片段自身無獨立意義,必須完全合并后,組成的整體才有意義。例如多媒體文件:圖片、視頻、音樂。當上傳時,為了上傳速度快,以及少占用網絡帶寬,將其拆分為若干個小文件片段,然后分別上傳這個文件片段,服務器端接收片段后,將其按照一定的規則合并。將合并后的完整文件保存在服務器端。
此類片段是:
先有整體——切割為個體——上傳到服務器端——服務器端將其重新匯聚為整體
2、片段自身可以有獨立意義,合并成后的完整文件也有意義。如包含數據信息的文本文件(xml格式等),這些文本文件可以單獨產生,可以單獨閱讀和使用,而將其合并后,合并后的完整文本則是其它信息的合集??梢哉w使用。
此類片段是:
先有個體——上傳到服務器端——服務器端將其匯聚為整體
以上兩種片段文件的數量都是不定的,由于上傳片段的客戶端不同,以及網絡延時等原因,服務器端也是無序接收到這些片段的。
因此對于此類文件,不僅其片段需要統計分析和保存,還需將其按照一定規則進行合并。對合并后的最終結果再進行相應處理和保存。
當海量該類無序片段數據需要處理時,不僅需要處理的單個片段多,而且涉及到片段的合并規則,合并后的二次分析、統計以及保存,并且需要保證合并的正確性,單個片段需要驗重,保證相同的片段只能被合并一次。不能將不是一個整體的片段合并為一體,因此這是一個復雜的處理過程,因此需要一種高效、快速、邏輯清晰的方法或框架。
發明內容
為了解決上述技術問題,本發明提供了一種海量片段數據匯聚的系統和方法,本發明采用消息隊列服務、內存庫、文件型數據庫及守護進程等多種技術,能夠高效的處理和合并海量片段數據。并采用嚴謹的合并策略,保證合并的正確性。
首先是針對第一種(片段自身無獨立意義)海量片段數據的處理:
1、由于片段是某一文件的一部分,因此要帶有此文件的唯一標識,好能通過此唯一標識識別出此片段屬于哪個文件。本文稱其為父ID,將父ID作為上傳的片段文件名,每個片段上傳時都帶有此父ID。此ID將伴隨片段數據走完整個處理流程。
2、對于第一種片段(片段自身無獨立意義),即被切割為片段的,將被切割的原始文件的MD5值作為文件的唯一標識,?即片段的父ID
3、服務器端接收到片段后,按照片段的MD5值到片段緩存庫中進行驗重,如果此片段在緩存庫中已有,則不處理。即節省了服務器資源,又保證了不重復合并。合并時按照父ID進行合并,即將具有相同父ID的片段合并在一起。
對于第一種海量片段數據,本發明提供了一種海量片段數據匯聚的系統,包括客戶端的片段上傳模塊,服務器端的緩存模塊、驗證庫模塊、文件存儲模塊、片段接收模塊、片段處理模塊、片段合并模塊、片段匯聚模塊;
所述片段上傳模塊將片段數據上傳到服務器端,所述片段數據帶有片段數據信息,包括片段數據的父ID,所述片段數據的父ID為片段數據所屬文件的HASH值;
其中,此模塊部署在客戶端,按照策略,每個片段都帶有父ID,然后將片段上傳到服務器端。
所述緩存模塊包括3個消息隊列,片段數據隊列、待合并片段隊列和合并結果待處理隊列;所述消息隊列采用后進先出的原則。
其中,
片段數據隊列:片段數據隊列存放接收后未作任何處理的片段數據,隊列采用后進先出的原則。
待合并片段隊列:待合并片段隊列存放驗重后,等待合并操作的片段數據。隊列采用后進先出的原則。
合并結果待處理隊列:隊列存放已合并后的數據信息,隊列采用后進先出的原則。
為了提高隊列的讀取和寫入速度,此處可使用內存級緩存庫。
所述驗證庫模塊存放已接收片段數據的HASH值;
其中,此處存放的是驗重后的。數據不會有冗余。
所述文件存儲模塊包括三部分,文件位置庫、文件緩存庫和文件最終存儲庫;
所述文件位置庫記錄已接收到的片段數據信息,以及合并后的文件存放的位置是在文件緩存庫中或者在文件最終存儲中;文件緩存庫存放尚未包含所有片段的文件;文件最終存儲庫保存包含所有片段的文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京安天電子設備有限公司,未經北京安天電子設備有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110375167.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





