[發明專利]一種基于圖數據結構的數據映射方法在審
| 申請號: | 201611001980.2 | 申請日: | 2016-11-14 |
| 公開(公告)號: | CN108073619A | 公開(公告)日: | 2018-05-25 |
| 發明(設計)人: | 李筱川;張宏 | 申請(專利權)人: | 北京航天長峰科技工業集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100854*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖數據結構 數據映射 文件信息 保存 文本文件 讀取文件 結果保存 外部系統 文件創建 文件存儲 圖計算 導出 數據庫 轉換 | ||
一種基于圖數據結構的數據映射方法,包括:(1)根據文件存儲的數據庫,將文件信息到文件中,如將保存在MySQL中的先行數據導出到txt文件中;(2)通過文件創建SparkRDD,例如文件信息保存在txt中,則可以通過SparkContext讀取文件生成RDD,并通過頭DF()接口將RDD轉換成DataFrame方便下一步計算;(3)通過DataFrame將數據存入Graphx,使用GraphX進行圖計算;(4)將計算所得結果保存到HDFS中或HBASE中,或生成文本文件保存到外部系統。
技術領域
本發明涉及計算機數據處理技術領域,具體涉及一種基于圖數據結構的數據映射方法。
背景技術
Spark GraphX是一個分布式圖處理框架,Spark GraphX基于Spark平臺提供對圖計算和圖挖掘簡潔易用的而豐富多彩的接口,極大的方便了大家對分布式圖處理的需求。
社交網絡中人與人之間有很多關系鏈,例如Twitter、Facebook、微博、微信,這些都是大數據產生的地方,都需要圖計算。
發明內容
本發明的的目的在于提出一種新的數據分析方案,對于不同的結構化或非結構化數據,存儲在SQL或NOSQL數據庫等DBMS中、文件系統中的數據映射到GraphX或SparkSQL中進行實時的數據分析,進行并行處理,并根據需要將結果選擇性的持久化到HDFS或HBASE中,且并不影響原系統的運行,提高對數據的使用效率。
本發明的技術方案如下:
一種基于圖數據結構的數據映射方法,其特征在于:
(1)根據文件存儲的數據庫,將文件信息到文件中,如將保存在MySQL中的先行數據導出到txt文件中;
(2)通過文件創建SparkRDD,例如文件信息保存在txt中,則可以通過SparkContext讀取文件生成RDD,并通過頭DF()接口將RDD轉換成DataFrame方便下一步計算;
(3)通過DataFrame將數據存入Graphx,使用GraphX進行圖計算;
(4)將計算所得結果保存到HDFS中或HBASE中,或生成文本文件保存到外部系統。
本發明將傳統結構化和非結構化數據庫中的數據完整的保存到SparkSQL或GraphX中,將源文件保存到HBASE中,提供隨即讀寫功能,與Spark同時運行,支持實時的數據分析,進而提供了做并行圖計算和各種算法的可能。
本發明可將計算結果保存到分布式系統中或SQL/NoSQL數據庫中,這樣可把Spark數據分析單獨抽取出來,不影響之前的系統運行,將計算結果實時的進行反饋,提高運行效率。
附圖說明
圖1是本發明采用的數據轉換流程圖。
具體實施方式
如圖1所示,本發明的具體實現方式如下:
(1)根據文件存儲的數據庫,將文件信息到文件中,如將保存在MySQL中的先行數據導出到txt文件中;
(2)通過文件創建SparkRDD,例如文件信息保存在txt中,則可以通過SparkContext讀取文件生成RDD,并通過頭DF()接口將RDD轉換成DataFrame方便下一步計算;
(3)通過DataFrame將數據存入Graphx,使用GraphX進行圖計算;
(4)將計算所得結果保存到HDFS中或HBASE中,或生成文本文件保存到外部系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航天長峰科技工業集團有限公司,未經北京航天長峰科技工業集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611001980.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于Solr的分布式檢索方法
- 下一篇:一種基于圖數據結構的快速檢索方法





