[發明專利]一種基于Flink的多模數據生成器的構建方法在審
| 申請號: | 202111231719.2 | 申請日: | 2021-10-22 |
| 公開(公告)號: | CN114003476A | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 葉楓;李凌;沈麗群 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06F16/21 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 王安琪 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 flink 數據 生成器 構建 方法 | ||
1.一種基于Flink的多模數據生成器的構建方法,其特征在于,包括如下步驟:
(1)構建多模數據字典;
(2)構建多模數據生成器;
(3)基于Apache Flink的多模數據生成器配置與部署;
(4)實現多模數據生成器的資源使用狀況監控。
2.如權利要求1所述的基于Flink的多模數據生成器的構建方法,其特征在于,步驟(1)中,構建多模數據字典具體為:從Amazon、LDBC和DBpedia獲取多模源數據(Customer、Vendor、RegUser、Product、Order、Invoice、Review),該數據集源于UniBench模擬的社交商務場景,其中,Customer、Vendor、RegUser是關系型數據類型,表示客戶、供應商和注冊用戶;Product、Order是Json數據類型,表示商品和訂單信息;Invoice代表發票信息,是XML格式;Review代表顧客的反饋,是Key-value類型的數據;SocialNetwork表示的是社交網絡數據,其數據類型是圖數據;對上述數據開展數據預處理,剔除其中的空值數據和錯誤數據,進一步核對數據對象之間的關聯關系,從而構建多模數據字典,構成了多模數據集的種子數據,多模數據字典的數據結構如下表1所列,該數據字典可進一步擴展;
表1多模數據字典的數據結構
3.如權利要求1所述的基于Flink的多模數據生成器的構建方法,其特征在于,步驟(2)中,構建多模數據生成器,具體包括如下步驟:
(21)設置多模數據生成器用戶參數λ,用戶可根據需要生成的數據規模調節λ的大小來控制數據生成器生成的數據規模,以GB為計量單位;
(22)根據前述所構建的多模數據字典,實現Java程序,使用偽隨機數據生成算法生成固定大小的各種數據(Customer、Vendor、RegUser、Product、Order、Invoice、Review),各種數據的規模與λ成正比關系;
(23)實現Java程序,基于Apache Flink的map算子遍歷隨機生成的Product和Order數據,并將其轉化為Json數據格式;
(24)實現Java程序,基于Apache Flink的map算子遍歷隨機生成的Invoice數據,并將其轉化為XML數據格式;
(25)實現Java程序,對隨機生成的Customer和RegUser數據,進行多表及多關系查詢,基于Apache Flink的TableSQLAPI生成所需的SocialNetwork圖數據;
(26)編寫Java程序實現多種數據存儲接口用于數據存儲與讀取。
4.如權利要求1所述的基于Flink的多模數據生成器的構建方法,其特征在于,步驟(3)中,構建基于Flink的多模數據生成器具體包括如下步驟:
(31)將多模數據生成器可運行的程序打包成jar包;
(32)在客戶端成功啟動Flink集群;
(33)將步驟(31)打包好的jar包從客戶端或Flink的Web UI提交給Flink集群。
5.如權利要求4所述的基于Flink的多模數據生成器的構建方法,其特征在于,步驟(31)中,在多模數據生成器的Java功能實現時,使用了Flink的Map算子和TableSQL API來生成多模數據。
6.如權利要求1所述的基于Flink的多模數據生成器的構建方法,其特征在于,步驟(4)中,構建多模數據生成器的資源利用監控具體包括如下步驟:
(41)集成了Prometheus,在客戶端配置并啟用Prometheus;
(42)在Prometheus的Web UI輸入“100–(avg by(instance)(irate(node_cpu{instance=xxx,mode=idle}[5s]))*100)”、“((node_memory_MemTotal_bytes-node_memory_Buffers_bytes-node_memory_Cached_bytes-node_memory_MemFree_bytes-node_memory_Slab_bytes)/node_memory_MemTotal_bytes)*100”兩個查詢條件,獲得該數據生成器的CPU和內存利用率,以便于后續對多模數據生成器的性能做優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111231719.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種隔離開關及隔離開關狀態檢測方法
- 下一篇:微透鏡結構、顯示屏幕及電子設備
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





