[發(fā)明專利]一種可保持janusGraph數(shù)據(jù)一致性的分布式高效并行加載方法有效
| 申請?zhí)枺?/td> | 202011622773.5 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112685419B | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設計)人: | 謝銘;蒲路;孟憲文 | 申請(專利權)人: | 北京賽思信安技術股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/23;G06F16/2458;G06F16/27;G06F9/54 |
| 代理公司: | 北京永創(chuàng)新實專利事務所 11121 | 代理人: | 易卜 |
| 地址: | 100125 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 保持 janusgraph 數(shù)據(jù)一致性 分布式 高效 并行 加載 方法 | ||
本發(fā)明公開了一種可保持janusGraph實時數(shù)據(jù)一致性的高效并行加載方法,屬于分布式圖數(shù)據(jù)庫領域,首先構建分布式結構;創(chuàng)建兩個空的分布式隊列;然后,實時接收數(shù)據(jù)并解析后存入隊列一中;數(shù)據(jù)處理模塊逐條取出,調(diào)用分布式索引模塊中存在對應ID的數(shù)據(jù)加載到圖數(shù)據(jù)庫中,并將無法調(diào)用ID的點的唯一標志存入隊列二中,點處理模塊判斷能否獲取各標志對應的ID,如果能,則繼續(xù)獲取下一個進行判斷;否則,將各標志加載到圖數(shù)據(jù)庫中,并產(chǎn)生對應的ID;同時將S與ID的對應關系保存;集群管理模塊找尋主節(jié)點,并對各子節(jié)點分發(fā)任務,各子節(jié)點并行處理各自的分布式隊列分區(qū)中的數(shù)據(jù)。本發(fā)明保證數(shù)據(jù)一致性的同時提高實時數(shù)據(jù)的并行加載。
技術領域
本發(fā)明屬于分布式圖數(shù)據(jù)庫領域,具體是一種可保持janusGraph數(shù)據(jù)一致性的分布式高效并行加載方法。
背景技術
隨著計算機技術的不斷發(fā)展和信息化程度的不斷提高,數(shù)據(jù)量在迅速增長,數(shù)據(jù)結構也在逐漸復雜化,傳統(tǒng)的關系型數(shù)據(jù)庫在很多場景下難以使用,因此誕生了各種非關系型數(shù)據(jù)庫。
圖數(shù)據(jù)庫是非關系型數(shù)據(jù)庫中的一種,擅長存儲各種關系網(wǎng)絡數(shù)據(jù),在眾多圖數(shù)據(jù)庫中,janusGraph是一個非常優(yōu)秀的分布式圖數(shù)據(jù)庫,具有極高的可擴展性,通過擴大集群大小線性地提高圖存儲的上限,可支持超級大的圖的存儲檢索。
在很多場景下janusGraph都是一個非常優(yōu)秀好用的圖數(shù)據(jù)庫,但是在處理實時數(shù)據(jù)時,為了保證數(shù)據(jù)的一致性只能進行單節(jié)點,單進程,單線程加載,因此實時數(shù)據(jù)加載效率具有很大局限性,不能滿足大流量實時數(shù)據(jù)的加載需求。
發(fā)明內(nèi)容
針對圖數(shù)據(jù)庫在處理大流量實時數(shù)據(jù)時的低效不安全性的問題,本發(fā)明提供了一種可保持janusGraph數(shù)據(jù)一致性的分布式高效并行加載方法,通過增加節(jié)點數(shù)量實現(xiàn)加載速度近線性提升,在保持數(shù)據(jù)一致性的前提下極大提高數(shù)據(jù)加載效率。
所述的高效并行加載方法,具體步驟如下:
步驟一、構建包括集群管理模塊、消息隊列模塊、數(shù)據(jù)處理模塊、點處理模塊和分布式索引模塊的高效加載分布式結構;
集群管理模塊負責給各節(jié)點分配要處理的隊列任務區(qū)間,消息隊列模塊負責數(shù)據(jù)的跨節(jié)點傳輸,數(shù)據(jù)處理模塊與分布式索引模塊配合工作,負責從消息隊列獲取圖數(shù)據(jù)并進行加載,點處理模塊和分布式索引模塊配合工作,負責從消息隊列獲取點數(shù)據(jù)并進行處理。
集群管理模塊,消息隊列模塊和分布式索引模塊都同時連接數(shù)據(jù)處理模塊和點處理模塊;
步驟二、初始化消息隊列模塊,創(chuàng)建兩個空的消息隊列:第一分布式隊列和第二分布式隊列;
第一分布式隊列用于存放原始圖數(shù)據(jù);第二分布式隊列用于存放處理時的點數(shù)據(jù);每個消息隊列里有若干分區(qū)。
步驟三、終端用戶調(diào)用API接口,從CSV文件或其他消息隊列中實時接收數(shù)據(jù),并解析后存入第一分布式隊列中;
解析是指將接收的數(shù)據(jù)解析為json結構;
每條數(shù)據(jù)由點邊點結構組成,具體包括:起始點的屬性,終止點的屬性,邊的屬性,起始點的標簽,終止點的標簽,邊的標簽,起始點的唯一標志和終止點的唯一標志;
步驟四、數(shù)據(jù)處理模塊從第一分布式隊列中逐條取出數(shù)據(jù),調(diào)用分布式索引模塊將數(shù)據(jù)加載或更新到圖數(shù)據(jù)庫中;
分布式索引模塊中存儲的是每個點的唯一標志和該點ID之間的映射關系;
具體為:
首先,針對當前數(shù)據(jù)a,根據(jù)起始點a1和終止點b1的唯一標志,利用分布式索引模塊找到兩個點的映射ID;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京賽思信安技術股份有限公司,未經(jīng)北京賽思信安技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011622773.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種消防水帶延時接頭
- 下一篇:一種超大硫化機
- 云存儲數(shù)據(jù)的一致性維護方法及云存儲系統(tǒng)
- 一種實現(xiàn)數(shù)據(jù)一致性的方法及裝置
- 用于解決主設備間數(shù)據(jù)一致性的總線監(jiān)控方法及裝置
- 航天產(chǎn)品生產(chǎn)過程數(shù)據(jù)一致性保證方法
- 一種異構系統(tǒng)數(shù)據(jù)一致性的方法
- 數(shù)據(jù)一致性校驗流控方法、裝置、電子設備及存儲介質(zhì)
- 一種金融數(shù)據(jù)一致性檢測系統(tǒng)及方法
- 一種在異地多活架構下保障數(shù)據(jù)一致性的方法
- 一種預取buffer數(shù)據(jù)一致性的處理方法及裝置
- 基于區(qū)塊鏈技術的數(shù)據(jù)中臺的數(shù)據(jù)質(zhì)量監(jiān)控方法及系統(tǒng)





