[發明專利]一種基于Flink的多模數據生成器的構建方法在審
| 申請號: | 202111231719.2 | 申請日: | 2021-10-22 |
| 公開(公告)號: | CN114003476A | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 葉楓;李凌;沈麗群 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06F16/21 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 王安琪 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 flink 數據 生成器 構建 方法 | ||
本發明公開了一種基于Flink的多模數據生成器的構建方法,包括如下步驟:(1)構建多模數據字典;(2)構建多模數據生成器;(3)基于Apache Flink的多模數據生成器配置與部署;(4)實現多模數據生成器的資源使用狀況監控。本發明公開的一種基于Flink的多模數據生成器能夠生成包括關系、鍵值、圖、Json、XML多種模型的數據,同時用戶可以根據自己的需求來生成所需大小的數據;該多模數據生成器是基于Flink平臺實現和部署的,利用了Flink的并行處理和主動內存管理機制來實現其高效性和擴展性,還集成了Prometheus,對其進行更加細粒度的資源利用情況。
技術領域
本發明涉及軟件功能度量和數據庫基準測評技術領域,是一種基于Flink的多模數據生成器的構建方法。
背景技術
在大數據時代,研究人員越來越重視數據的處理和利用,各種大數據的工具和平臺也不斷涌現和發展。當前,一個亟待解決的大數據問題是如何利用大規模的多模數據(multi-model data)對眾多的大數據工具和平臺開展基準測評(benchmarking),這對不同大數據工具、平臺的選型、優化至關重要。但是,在現實世界中,獲取大規模、真實的多模數據是非常困難的。首先,由于專有系統的機密性,商業合同和記錄的隱私性,大多數業務數據所有者不愿共享其真實數據。其次,就多模數據的固有稀缺性而言,難以獲得包含各種類型(結構化、半結構化或非結構化)的、有代表性的數據集。最后,若通過Internet獲取大規模多模數據或通過智能設備獲取大型數據集則需要高昂的成本花費。
要解決上述問題,一種實用、可行方法是基于小規模、真實的多模數據,以其作為種子數據,通過構建多模數據生成器來生成所需的數據集。從業界的研究和應用現狀來看,現有的數據生成器并不完備,往往只包括一種數據模式,缺乏聚焦于生成多模大數據的生成器,并且在多模數據生成的并行計算能力和監測機制方面也有值得研究的空間。
發明內容
本發明所要解決的技術問題在于,提供一種基于Apache Flink的多模數據生成器的構建方法,能夠將小規模的真實數據集作為種子數據,并利用Apache Flink的并行處理和主動內存管理機制,在線性總時間內快速生成大規模的多模合成數據。
為解決上述技術問題,本發明提供一種基于Apache Flink的多模數據生成器的構建方法,包括如下步驟:
(1)構建多模數據字典;
(2)構建多模數據生成器;
(3)基于Apache Flink的多模數據生成器配置與部署;
(4)實現多模數據生成器的資源使用狀況監控。
優選的,步驟(1)中,構建多模數據字典的過程可描述為:從Amazon、LDBC和DBpedia獲取多模源數據(Customer、Vendor、RegUser、Product、Order、Invoice、Review)。該數據集源于UniBench(http://udbms.cs.helsinki.fi/?projects/ubench)模擬的社交商務場景(社交網絡與電子商務環境結合)。其中,Customer、Vendor、RegUser是關系型數據類型,表示客戶、供應商和注冊用戶;Product、Order是Json數據類型,表示商品和訂單信息;Invoice代表發票信息,是XML格式;Review代表顧客的反饋,是Key-value類型的數據;SocialNetwork表示的是社交網絡數據,其數據類型是圖數據。對上述數據開展數據預處理,剔除其中的空值數據和錯誤數據,進一步核對數據之間的關聯關系,構建多模數據字典,構成了多模數據集的種子數據。多模數據字典的數據結構如下表1所列。該數據字典可進一步擴展,如增加客戶的興趣數據和供應商的位置信息數據。
表1多模數據字典的數據結構
優選的,步驟(2)中,構建多模數據生成器的步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111231719.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種隔離開關及隔離開關狀態檢測方法
- 下一篇:微透鏡結構、顯示屏幕及電子設備
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





