[發(fā)明專利]一種可保持titan實時數(shù)據(jù)一致性的高效并行加載方法有效
| 申請?zhí)枺?/td> | 201710390469.4 | 申請日: | 2017-05-27 |
| 公開(公告)號: | CN107038260B | 公開(公告)日: | 2020-03-10 |
| 發(fā)明(設(shè)計)人: | 毛洪亮;唐積強;王秀文;李焱余;蘇沐冉;馬秀娟;吳震;徐小磊;張露晨;李傳海;李斌斌;蒲路;謝銘 | 申請(專利權(quán))人: | 國家計算機網(wǎng)絡(luò)與信息安全管理中心;北京賽思信安技術(shù)股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/23;G06F16/2457;G06F16/25 |
| 代理公司: | 北京永創(chuàng)新實專利事務(wù)所 11121 | 代理人: | 趙文利 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 保持 titan 實時 數(shù)據(jù)一致性 高效 并行 加載 方法 | ||
本發(fā)明公開了一種可保持titan實時數(shù)據(jù)一致性的高效并行加載方法,屬于大數(shù)據(jù)處理領(lǐng)域;首先,將titan劃分為7個并行工作的模塊,清洗規(guī)則管理模塊實時更新過濾規(guī)則;數(shù)據(jù)接收模塊接收pieceOfData放入queue1中;數(shù)據(jù)清洗模塊過濾合格數(shù)據(jù)放入queue2中;ID轉(zhuǎn)換模塊與高速索引模塊交互,判斷當(dāng)前pieceOfData中的兩個點與titan ID的對應(yīng)關(guān)系是否存在與圖數(shù)據(jù)庫中;如果是,將titan內(nèi)部ID屬性與ID值替換點保存到pieceOfDataT中,放入到queue4中;否則,將未加載的點放入HashSet中,并將對應(yīng)的pieceOfData放入queue3中;剩余數(shù)據(jù)加載模塊多線程并行將pieceOfDataT加載到titan中;點加載模塊負(fù)責(zé)將HashSet中點加入titan,將點與titan ID的對應(yīng)關(guān)系加入高速索引模塊。本發(fā)明每個模塊獨自或交互完成部分功能,從而實現(xiàn)整體上加載效率的提升。
技術(shù)領(lǐng)域
本發(fā)明屬于大數(shù)據(jù)處理領(lǐng)域,涉及一種高效安全的圖數(shù)據(jù)庫實時數(shù)據(jù)預(yù)處理加載方法,具體是一種可保持titan實時數(shù)據(jù)一致性的高效并行加載方法。
背景技術(shù)
隨著計算機技術(shù)的不斷發(fā)展和信息化程度的不斷提高,數(shù)據(jù)量在迅速增長,數(shù)據(jù)結(jié)構(gòu)也在逐漸復(fù)雜化,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在很多場景下難以使用,因此誕生了各種非關(guān)系型數(shù)據(jù)庫。
圖數(shù)據(jù)庫是非關(guān)系型數(shù)據(jù)庫中的一種,擅長存儲各種關(guān)系網(wǎng)絡(luò)數(shù)據(jù),在眾多圖數(shù)據(jù)庫中,titan作為非常優(yōu)秀好用的分布式圖數(shù)據(jù)庫,具有極高的可擴展性,通過擴大集群大小線性地提高圖存儲的上限,同時可支持超級大的圖的存儲檢索;因此應(yīng)用在很多場景下;但是在加載處理實時數(shù)據(jù)時,為了保證數(shù)據(jù)的一致性,titan只能進行單線程加載,實時數(shù)據(jù)加載的效率低下,具有很大局限性,不能滿足大流量實時數(shù)據(jù)的加載需求。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中,圖數(shù)據(jù)庫titan在處理大流量實時數(shù)據(jù)時低效不安全性的問題,本發(fā)明提供了一種可保持titan實時數(shù)據(jù)一致性的高效并行加載方法。
具體步驟如下:
步驟一、將圖數(shù)據(jù)庫titan劃分為7個模塊,且7個模塊并行操作;
7個模塊包括:數(shù)據(jù)接收模塊,清洗規(guī)則管理模塊,數(shù)據(jù)清洗模塊,ID轉(zhuǎn)換模塊,高速索引模塊,點加載模塊和剩余數(shù)據(jù)加載模塊;
數(shù)據(jù)接收模塊負(fù)責(zé)接收需要被處理的數(shù)據(jù),并放入有界隊列中;
清洗規(guī)則管理模塊通過監(jiān)控規(guī)則文件實現(xiàn)過濾規(guī)則的動態(tài)更新;
數(shù)據(jù)清洗模塊按清洗規(guī)則管理模塊給定的規(guī)則過濾有界隊列中不需要的數(shù)據(jù);
ID轉(zhuǎn)換模塊將清洗后的數(shù)據(jù)中的點替換為圖數(shù)據(jù)庫中對應(yīng)點的ID。
高速索引模塊負(fù)責(zé)加速ID的轉(zhuǎn)化速度。
點加載模塊,負(fù)責(zé)加載ID轉(zhuǎn)換時不存在于圖數(shù)據(jù)庫內(nèi)的點;并在加載完成后將點及其ID對應(yīng)關(guān)系添加進高速索引模塊。
剩余數(shù)據(jù)加載模塊,通過并行加載大幅提升圖數(shù)據(jù)的加載速度。
步驟二、數(shù)據(jù)接收模塊的多線程同時并行工作,每個線程循環(huán)從消息隊列或CSV文件或消息隊列等數(shù)據(jù)源獲取數(shù)據(jù),解析成多條pieceOfData數(shù)據(jù),放入有界隊列queue1中。
pieceOfData數(shù)據(jù)由兩個點,兩個點之間的關(guān)系,以及點與關(guān)系上的屬性構(gòu)成;
有界隊列queue1用于存放從數(shù)據(jù)源獲取的數(shù)據(jù);
步驟三、清洗規(guī)則管理模塊定時讀取規(guī)則配置文件,或接受客戶端請求讀取規(guī)則配置文件,實時動態(tài)更新過濾規(guī)則;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國家計算機網(wǎng)絡(luò)與信息安全管理中心;北京賽思信安技術(shù)股份有限公司,未經(jīng)國家計算機網(wǎng)絡(luò)與信息安全管理中心;北京賽思信安技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710390469.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:陶瓷瓶(荷塘白鷺)
- 下一篇:筆(Ref.2294)
- 云存儲數(shù)據(jù)的一致性維護方法及云存儲系統(tǒng)
- 一種實現(xiàn)數(shù)據(jù)一致性的方法及裝置
- 用于解決主設(shè)備間數(shù)據(jù)一致性的總線監(jiān)控方法及裝置
- 航天產(chǎn)品生產(chǎn)過程數(shù)據(jù)一致性保證方法
- 一種異構(gòu)系統(tǒng)數(shù)據(jù)一致性的方法
- 數(shù)據(jù)一致性校驗流控方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種金融數(shù)據(jù)一致性檢測系統(tǒng)及方法
- 一種在異地多活架構(gòu)下保障數(shù)據(jù)一致性的方法
- 一種預(yù)取buffer數(shù)據(jù)一致性的處理方法及裝置
- 基于區(qū)塊鏈技術(shù)的數(shù)據(jù)中臺的數(shù)據(jù)質(zhì)量監(jiān)控方法及系統(tǒng)





