[發(fā)明專利]基于數(shù)據(jù)湖的大數(shù)據(jù)采集治理快速檢索系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010340728.4 | 申請日: | 2020-04-26 |
| 公開(公告)號: | CN111460236A | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設(shè)計)人: | 李光;李延波;張建軍;俞光日;夏連杰;劉金棟;李延勇 | 申請(專利權(quán))人: | 天津七一二通信廣播股份有限公司 |
| 主分類號: | G06F16/901 | 分類號: | G06F16/901;G06F16/903 |
| 代理公司: | 天津企興智財知識產(chǎn)權(quán)代理有限公司 12226 | 代理人: | 馬倩倩 |
| 地址: | 300462 天津市濱海*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 數(shù)據(jù) 采集 治理 快速 檢索系統(tǒng) | ||
1.基于數(shù)據(jù)湖的大數(shù)據(jù)采集治理快速檢索系統(tǒng),其特征在于,包括:
數(shù)據(jù)采集前端模塊,用于完成多源異構(gòu)數(shù)據(jù)的采集,并將采集到的數(shù)據(jù)存儲在數(shù)據(jù)資源池中;
數(shù)據(jù)資源池模塊,包括分布式文件系統(tǒng)、非關(guān)系型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫,用于存儲數(shù)據(jù)采集前端模塊輸出的數(shù)據(jù);
數(shù)據(jù)治理模塊,用于批量或?qū)崟r治理存儲在數(shù)據(jù)資源池模塊中的數(shù)據(jù),并將治理后的數(shù)據(jù)按照用戶的需求形成數(shù)據(jù)主題庫,并存儲在數(shù)據(jù)服務(wù)模塊的分布式分析型數(shù)據(jù)庫中;
數(shù)據(jù)服務(wù)模塊,包括分布式全文檢索數(shù)據(jù)庫、分布式分析型數(shù)據(jù)庫、分布式內(nèi)存型數(shù)據(jù)庫三個部分;
數(shù)據(jù)業(yè)務(wù)模塊,用于為用戶提供數(shù)據(jù)業(yè)務(wù)服務(wù);
數(shù)據(jù)關(guān)聯(lián)元數(shù)據(jù)提取模塊,用于完成多源異構(gòu)數(shù)據(jù)的元數(shù)據(jù)提取,并將提取的信息存儲在數(shù)據(jù)服務(wù)模塊的分布式全文檢索數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于:所述數(shù)據(jù)關(guān)聯(lián)元數(shù)據(jù)提取模塊提取的元數(shù)據(jù)包括如下關(guān)鍵參數(shù):數(shù)據(jù)的版本信息、類型、來源、采集時間、數(shù)據(jù)結(jié)構(gòu)信息、存儲位置信息;
所述數(shù)據(jù)采集前端模塊和數(shù)據(jù)關(guān)聯(lián)元數(shù)據(jù)提取模塊分別實(shí)現(xiàn)數(shù)據(jù)儲存及元數(shù)據(jù)提取的步驟如下:
步驟A:多個數(shù)據(jù)采集前端模塊分別部署在不同的數(shù)據(jù)源前端,每個數(shù)據(jù)采集前端模塊采集一種數(shù)據(jù)來源的數(shù)據(jù);
步驟B:采集到的數(shù)據(jù)通過采集前端模塊的數(shù)據(jù)版本信息檢測模塊監(jiān)測出數(shù)據(jù)相關(guān)的版本信息;通過采集前端模塊的數(shù)據(jù)標(biāo)簽處理模塊將數(shù)據(jù)進(jìn)行打標(biāo)簽,標(biāo)簽信息包括:類型、來源、采集時間、數(shù)據(jù)結(jié)構(gòu)信息、存儲位置;
步驟C:數(shù)據(jù)按照不同數(shù)據(jù)來源、不同數(shù)據(jù)類型分類存儲到數(shù)據(jù)資源池中的分布式文件系統(tǒng)、非關(guān)系型數(shù)據(jù)庫和關(guān)系型數(shù)據(jù)庫;
步驟D:數(shù)據(jù)存儲完后,同時數(shù)據(jù)關(guān)聯(lián)元數(shù)據(jù)提取模塊將數(shù)據(jù)存儲位置、數(shù)據(jù)版本信息、類型、來源、采集時間、數(shù)據(jù)結(jié)構(gòu)信息、數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系元數(shù)據(jù)信息存儲在分布式全文檢索數(shù)據(jù)庫中。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于:所述數(shù)據(jù)服務(wù)模塊具備冷數(shù)據(jù)的自動清除功能,具體的實(shí)施步驟如下:
步驟A:數(shù)據(jù)業(yè)務(wù)模塊向數(shù)據(jù)服務(wù)模塊發(fā)送數(shù)據(jù)業(yè)務(wù)請求,其中數(shù)據(jù)服務(wù)模塊包括數(shù)據(jù)檢索服務(wù)模塊和數(shù)據(jù)分發(fā)服務(wù)模塊;
步驟B:數(shù)據(jù)服務(wù)模塊按照不同業(yè)務(wù)類型,將任務(wù)分發(fā)給不同的數(shù)據(jù)業(yè)務(wù)處理模塊進(jìn)行處理;
步驟C:數(shù)據(jù)業(yè)務(wù)處理模塊完成數(shù)據(jù)相關(guān)業(yè)務(wù)處理后將處理結(jié)果反饋給數(shù)據(jù)業(yè)務(wù)模塊;
步驟D:數(shù)據(jù)業(yè)務(wù)處理模塊,記錄當(dāng)前處理的數(shù)據(jù),并更新分布式全文檢索數(shù)據(jù)庫中相應(yīng)數(shù)據(jù)的數(shù)據(jù)更新時間為當(dāng)前時間;
步驟E:數(shù)據(jù)服務(wù)模塊在啟動時,啟動定時檢查冷數(shù)據(jù)任務(wù),該任務(wù)按照周期工作的方式定時檢測分布式全文檢索數(shù)據(jù)庫中的數(shù)據(jù)更新時間;
步驟F:定時檢查冷數(shù)據(jù)任務(wù)根據(jù)當(dāng)前時間與數(shù)據(jù)更新時間的差值判斷數(shù)據(jù)是否為冷數(shù)據(jù),其中判斷冷數(shù)據(jù)的時間差可配置;
步驟G:如果是冷數(shù)據(jù),則根據(jù)數(shù)據(jù)存儲在分布式全文檢索數(shù)據(jù)庫中的數(shù)據(jù)關(guān)聯(lián)關(guān)系、存儲位置等信息檢索出數(shù)據(jù),并刪除數(shù)據(jù);如果不是冷數(shù)據(jù)則結(jié)束。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于:所述分布式分析型數(shù)據(jù)庫中存儲的是用戶通過數(shù)據(jù)治理模塊完成數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)提取后的主題類數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于:所述分布式內(nèi)存型數(shù)據(jù)庫中存儲的是用戶高頻次、高速率需求的數(shù)據(jù),
當(dāng)用戶在進(jìn)行高速計算類業(yè)務(wù)時,首先從分布式內(nèi)存型數(shù)據(jù)庫中查找數(shù)據(jù),當(dāng)分布式內(nèi)存型數(shù)據(jù)庫中有該類數(shù)據(jù)時,直接將數(shù)據(jù)反饋給用戶;當(dāng)分布式內(nèi)存型數(shù)據(jù)庫中不存儲數(shù)據(jù)時,數(shù)據(jù)服務(wù)模塊會自動從數(shù)據(jù)資源池模塊中檢索相關(guān)數(shù)據(jù),并將檢索到的數(shù)據(jù)存儲在分布式內(nèi)存型數(shù)據(jù)庫中,再反饋給用戶。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于:所述數(shù)據(jù)業(yè)務(wù)模塊用于為用戶提供數(shù)據(jù)快速檢索、數(shù)據(jù)分析、數(shù)據(jù)計算、數(shù)據(jù)目錄、數(shù)據(jù)可視化、數(shù)據(jù)血緣關(guān)系的業(yè)務(wù)服務(wù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津七一二通信廣播股份有限公司,未經(jīng)天津七一二通信廣播股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010340728.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種眼鏡修復(fù)矯正裝置
- 下一篇:防近視紙的制備方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種揮發(fā)性有機(jī)污染物治理對比柱箱及使用方法
- 一種揮發(fā)性有機(jī)污染物治理對比柱箱
- 一種城市環(huán)境管理方法和裝置
- 一種數(shù)據(jù)治理系統(tǒng)
- 一種區(qū)塊鏈中的系統(tǒng)功能治理方法、系統(tǒng)及設(shè)備
- 一種數(shù)據(jù)治理方法及系統(tǒng)
- 沙漠治理方法、裝置、存儲介質(zhì)及電子設(shè)備
- 航空數(shù)據(jù)治理方法、航空數(shù)據(jù)治理裝置和存儲介質(zhì)
- 一種醫(yī)療數(shù)據(jù)治理系統(tǒng)
- 一種石漠化生態(tài)治理技術(shù)配置方法





