[發明專利]一種基于高能物理事例的數據管理與傳輸方法有效
申請號: | 201810366443.0 | 申請日: | 2018-04-23 |
公開(公告)號: | CN109600413B | 公開(公告)日: | 2021-04-06 |
發明(設計)人: | 王聰;程耀東;李海波;徐琪;程振京;胡慶寶 | 申請(專利權)人: | 中國科學院高能物理研究所 |
主分類號: | H04L29/08 | 分類號: | H04L29/08 |
代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100049 *** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 高能物理 事例 數據管理 傳輸 方法 | ||
本發明公開了一種基于高能物理事例的數據管理與傳輸方法,其步驟包括:設置一主站點和若干分站點;在每一分站點上設置一數據傳輸客戶端,在主站點上設置一數據傳輸服務端;定期將事例數據存儲到主站點,以及從事例數據中提取事例特征數據并存儲在主站點的事例索引數據庫中;分站點接收到物理軟件讀取事例或文件的請求后,向該分站點的客戶端數據緩存服務器發送查詢請求;若該分站點存在所請求的事例或文件,則在該分站點讀取相關信息返回給物理軟件,否則向主站點的數據傳輸服務端發起數據傳輸請求,從主站點獲取請求的數據并存儲到該分站點,以及從獲取的數據中提取元數據并存儲到該分站點的緩存元數據模塊中。本發明支持計算任務實時傳輸數據。
技術領域
本發明屬于海量數據存儲領域,具體涉及一種基于高能物理事例的數據管理與傳輸方法。
背景技術
信息技術的快速發展,個人用戶、科學計算、互聯網等應用產生了海量的數據。爆炸式增長的數據即將從PB級向EB級邁進,這些數據的存儲和高速訪問對分布式文件系統在可用性、可擴展性及IO訪問性能上提出了新的挑戰。在海量存儲需求的驅動下,隨著磁盤容量和IO速度的提高,網絡技術及存儲架構設計的進步,誕生了大量高性能、高擴展性、高可用性的分布式文件系統。它們能夠支持PB級的存儲空間和數千萬個甚至上億個文件,可以動態的通過增加存儲服務器和存儲介質來增加系統容量、提高聚合訪問帶寬。然而,這些主流的存儲系統,在系統規模不斷增大的情形下,或多或少都表現出一定的局限性,從而影響系統的整體性能。面對不斷增長的海量數據,需要設計一種新型的數據管理與訪問方法,保證系統的可用性、可擴展性不會隨著系統規模的增大而受限。
近年來,在網絡應用如Amazon、Facebook、Twitter、微博等驅動下,分布式存儲發展迅速,涌現出以Amazon的Dynamo、Apache Cassandra、Lustre、Glusterfs、FastDFS等為代表的一大批開源系統。這其中有通用并行文件系統Lustre、Glusterfs等;基于key-value的分布式存儲系統Dynamo、Apache Cassandra、FastDFS等,這些存儲系統改變了應用訪問數據的方式,系統不具備統一的名字空間,而是通過鍵值對應關系,也可以看做是簡單的分布式數據庫;還有整合分布式存儲系統前沿研究思想的實驗文件系統Ceph等。傳統高能物理數據處理以ROOT文件為基本存儲和處理單位,每個ROOT文件可以包含數千至數億個事例。這種基于文件的處理方式雖然降低了高能物理數據管理系統的開發難度,但隨著實驗數據的飛速增長以及新技術的出現,這種傳統的數據存儲和處理方式也暴露出越來越多的問題。傳統的文件級管理面臨的挑戰為:全數據掃描、篩選時間長,基于文件的緩存效率低,基于文件的傳輸通信延遲高。在實際的高能物理數據分析過程中,大部分的數據都是物理學家們不感興趣的數據,而且通過一些條件即可過濾掉,如果條件設置得當,該系統能夠幫助物理學家篩選掉甚至99.9%的不感興趣的數據。這樣不僅可以節省I/O資源,還能提高CPU利用率,減少數據分析耗時。
大型高能物理實驗往往由國際合作單位共同貢獻資源形成分布式計算系統,比如WLCG、BES Grid等。傳統的計算方式是事先將數據傳輸到目標站點,然后再將計算任務調度過去運行。隨著網絡帶寬的提升,全網調度計算任務,數據遠程訪問成為未來的發展趨勢。歐洲大型強子對撞機產生海量數據便是由WLCG(World wide LHC Computing Grid)負責存儲和處理的。在WLCG的Tier結構中,數據并不是完全復制到所有的站點中,因此計算任務會被調度到存儲數據的地方。如果某個站點需要分析感興趣的數據,需要提前進行數據訂閱,將數據預先傳輸到指定的站點。當前,網絡帶寬不斷提升,全網進行計算任務的調度,遠程進行數據訪問成為未來的發展趨勢。然而,局域網的時延一般在1ms以下,而廣域網的時延通常比較大,比如中國到歐洲的時延能達到200ms左右,在該種情境下,分布式文件系統基本是無法工作的,因此急需要求研究高帶寬的遠程I/O訪問技術。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院高能物理研究所,未經中國科學院高能物理研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810366443.0/2.html,轉載請聲明來源鉆瓜專利網。