[發明專利]一種異構多源數據融合系統有效
| 申請號: | 202110078550.5 | 申請日: | 2021-01-21 |
| 公開(公告)號: | CN112395281B | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 呂翊;黃海峰;韓國權;李佳憶 | 申請(專利權)人: | 太極計算機股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25;G06F16/22;G06F11/14 |
| 代理公司: | 北京智橋聯合知識產權代理事務所(普通合伙) 11560 | 代理人: | 金光恩 |
| 地址: | 100102 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 異構多源 數據 融合 系統 | ||
1.一種異構多源數據融合系統,其特征在于,所述系統包括:數據源裝置,數據集成裝置,數據存儲與處理裝置及統一資源服務裝置,所述裝置,通過通信線路相互連接;
所述數據源裝置,用于對數據進行采集,通過系統日志和網絡數據采集獲取結構化和非結構化的多源數據;所述數據源裝置包括數據校驗模塊,所述數據校驗模塊,對接收數據和發送數據做一致性的校驗;
所述數據集成裝置,用于對數據源裝置的多源數據進行預處理,從中抽取具有價值的數據,并對采集數據進行清洗轉換,以適應數據的存儲要求;
所述數據存儲與處理裝置,用于大數據存儲與管理,并進行數據調用;對數據類型按照數據熱度分為在線,近線,離線數據三種類型,對于近線數據響應時間設置在100ms以內,對于在線數據的響應時間設置在30ms以內,對于離線數據響應時間設置在1s以內;
所述數據存儲與處理裝置,包括分布式索引和查詢單元,所述分布式索引和查詢單元,用于將索引數據切分后,采用hash函數的映射的方式,將數據分布到不同的存儲節點;所述數據存儲與處理裝置,將同一存儲節點的數據以2個副本的形式保存到不同的節點上,一個副本在同機架的其他節點上,另外一個副本在其他機架的節點上,其中一個副本僅起數據備份作用,不接受查詢請求;
其中,所述數據存儲與處理裝置,還包括一個自動恢復模塊,所述自動恢復模塊用于恢復存儲數據中的元數據副本,具體功能是:1)檢查待恢復元數據副本是否足夠,若是則無須恢復;2)判斷任務狀態,如果任務狀態為任務初始化Task_inited,則轉步驟4);3)選擇恢復源,恢復源選擇為元數據任意可用副本;選擇恢復目的,恢復目的選擇為元數據服務器集群內設定時間內I/O壓力最小的元數據服務器;更新任務狀態為Task_inited,更新元數據副本位置分布信息;4)計算恢復限速,如果恢復限速<=0,則意味著當前無法執行恢復,轉步驟8);5)向恢復源發送數據恢復任務;6)修改任務狀態為Task_processing;7)等待任務匯報狀態;8)從任務隊列中刪除任務;其中所述等待任務匯報狀態,包括任務處理結束;
所述數據存儲與處理裝置,進一步包括負載遷移單元,所述負載遷移單元用于單節點存儲負載判定和存儲負載遷移,當判斷負載均衡不平衡時,計算出哪些存儲節點是超負載,哪些存儲節點是空負載,并按照存儲負載程度構建超載節點有序隊列和空載節點有序隊列;
所述單節點存儲負載判定的過程包括:計算每個節點的存儲負載率Li;計算系統平均負載Lavg;創建超載節點有序隊列和空載節點有序隊列;如果LiLavg,說明該存儲節點超載,就將該存儲節點按大根堆序插入到超載節點隊列中;如果LiLavg,說明該存儲節點空載,就將該存儲節點以堆棧的方式插入到空載節點隊列中;存儲負載遷移的過程包括:計算每一個超載存儲節點需要遷移出的數據量:計算每一個空載節點需要遷移進的數據量:根據存儲節點需要遷移的數據量,按序循環遷移數據;
所述統一資源服務裝置,用于為用戶使用數據提供不同的應用接口,以與各種應用的需求對接。
2.如權利要求1所述的系統,其特征在于:所述數據源裝置中通過系統日志和網絡數據采集獲取結構化和非結構化的多源數據,具體是通過網絡爬蟲的方式進行采集。
3.如權利要求1所述的系統,其特征在于:所述數據集成裝置,包括數據抽取單元,用于對數據執行全量抽取,增量抽取,靜態數據捕獲和/或動態數據捕獲。
4.如權利要求1所述的系統,其特征在于:所述數據集成裝置,包括數據清洗單元,所述數據清洗單元用于按照目標數據的要求,改進已抽取的數據指令,消除錯誤和不一致,執行完整性檢查,并核對數據的有效性。
5.如權利要求1所述的系統,其特征在于:所述數據集成裝置包括,數據轉換單元,所述數據轉換單元用于對所有數據的格式、長度、類型、單位及空值屬性進行檢查,對不同屬性的將其轉換為統一的屬性或描述。
6.如權利要求1所述的系統,其特征在于:所述數據源裝置包括的數據校驗模塊,還用于多源數據驗證,將來自不同數據源的同一數據進行比對,并根據其相似度、誤差值,做置信度驗證。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太極計算機股份有限公司,未經太極計算機股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110078550.5/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





