[發(fā)明專利]非結(jié)構(gòu)化大數(shù)據(jù)生成方法、系統(tǒng)、存儲(chǔ)介質(zhì)及電子設(shè)備有效
| 申請?zhí)枺?/td> | 202010423154.7 | 申請日: | 2020-05-19 |
| 公開(公告)號: | CN111597781B | 公開(公告)日: | 2023-06-02 |
| 發(fā)明(設(shè)計(jì))人: | 劉祥 | 申請(專利權(quán))人: | 浪潮軟件集團(tuán)有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/174 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 孫園園 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 結(jié)構(gòu) 數(shù)據(jù) 生成 方法 系統(tǒng) 存儲(chǔ) 介質(zhì) 電子設(shè)備 | ||
本發(fā)明公開了一種非結(jié)構(gòu)化大數(shù)據(jù)生成方法、系統(tǒng)、存儲(chǔ)介質(zhì)及電子設(shè)備,屬于計(jì)算機(jī)大數(shù)據(jù)測試領(lǐng)域,本發(fā)明要解決的技術(shù)問題為如何能夠快速完成數(shù)據(jù)準(zhǔn)備工作,且能夠從數(shù)據(jù)類型、數(shù)據(jù)數(shù)量、數(shù)據(jù)大小三個(gè)維度滿足大數(shù)據(jù)平臺的測試需求,采用的技術(shù)方案為:該方法是BigDataInitTool從配置文件中讀取文件模板、生成的文件類型、數(shù)量、每種類型的大小的配置信息,根據(jù)不同配置信息調(diào)用不同的數(shù)據(jù)生成模塊進(jìn)行對應(yīng)的文檔文件、圖像文件、音頻文件、文本文件和視頻文件生成。該系統(tǒng)包括BigDataInitTool數(shù)據(jù)生成控制模塊、數(shù)據(jù)生成模塊、配置文件模塊和模板庫。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)大數(shù)據(jù)測試領(lǐng)域,具體地說是一種非結(jié)構(gòu)化大數(shù)據(jù)生成方法、系統(tǒng)、存儲(chǔ)介質(zhì)及電子設(shè)備。
背景技術(shù)
相較于記錄了生產(chǎn)、業(yè)務(wù)、交易和客戶信息等的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化的信息涵蓋了更為廣泛的內(nèi)容,包括了如合約、發(fā)票、書信與采購記錄等營運(yùn)內(nèi)容;如文書處理、電子表格、簡報(bào)檔案與電子郵件等部門內(nèi)容;如HTML與XML等格式信息的Web內(nèi)容;以及如聲音、影片、圖形等媒體內(nèi)容。目前,非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容占據(jù)了當(dāng)前數(shù)據(jù)海洋的80%。
隨著互聯(lián)網(wǎng)+時(shí)代的到來,各行各業(yè)的數(shù)據(jù)都產(chǎn)生了爆炸式的增長,不僅體現(xiàn)在數(shù)據(jù)量上,同時(shí)也體現(xiàn)在數(shù)據(jù)類型上,各行業(yè)的核心數(shù)據(jù)資產(chǎn)除包含結(jié)構(gòu)化數(shù)據(jù)外,還包含大量的非結(jié)構(gòu)化數(shù)據(jù),如圖片、視頻、音頻、文檔。如果讓這些海量數(shù)據(jù)相互作用形成有價(jià)值的信息,是每個(gè)行業(yè)非常關(guān)心的話題。
企業(yè)在對大數(shù)據(jù)平臺進(jìn)行測試時(shí),通常需要一定量的基礎(chǔ)數(shù)據(jù)來進(jìn)行驗(yàn)證,目前在大數(shù)據(jù)平臺測試驗(yàn)證環(huán)節(jié),有時(shí)為了準(zhǔn)備大量的數(shù)據(jù)而耗費(fèi)數(shù)天、數(shù)周的時(shí)間,但是在數(shù)據(jù)量、數(shù)據(jù)類型、數(shù)據(jù)文件分布上存在數(shù)據(jù)量少、數(shù)據(jù)類型少、數(shù)據(jù)質(zhì)量不高不能貼近真實(shí)數(shù)據(jù)這些情況,均達(dá)不到特定的業(yè)務(wù)場景需求。
故如何能夠快速完成數(shù)據(jù)準(zhǔn)備工作,且能夠從數(shù)據(jù)類型、數(shù)據(jù)數(shù)量、數(shù)據(jù)大小三個(gè)維度滿足大數(shù)據(jù)平臺的測試需求是目前亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是提供一種非結(jié)構(gòu)化大數(shù)據(jù)生成方法、系統(tǒng)、存儲(chǔ)介質(zhì)及電子設(shè)備,來解決如何能夠快速完成數(shù)據(jù)準(zhǔn)備工作,且能夠從數(shù)據(jù)類型、數(shù)據(jù)數(shù)量、數(shù)據(jù)大小三個(gè)維度滿足大數(shù)據(jù)平臺的測試需求的問題。
本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,一種非結(jié)構(gòu)化大數(shù)據(jù)生成方法,該方法是BigDataInitTool從配置文件中讀取文件模板、生成的文件類型、數(shù)量、每種類型的大小的配置信息,根據(jù)不同配置信息調(diào)用不同的數(shù)據(jù)生成模塊進(jìn)行對應(yīng)的文檔文件、圖像文件、音頻文件、文本文件和視頻文件生成。
作為優(yōu)選,該方法具體如下:
BigDataInitTool讀取配置文件并對數(shù)據(jù)生成模塊進(jìn)行初始化處理;
在讀取并解析配置文件后,根據(jù)配置文件中的參數(shù)調(diào)用數(shù)據(jù)生成模塊進(jìn)行實(shí)體文件生成;同時(shí)計(jì)算出文件的生產(chǎn)總數(shù)和對應(yīng)大小范圍內(nèi)的文件需要生成的數(shù)量;
BigDataInitTool進(jìn)行文件數(shù)據(jù)多線程生成;
每個(gè)數(shù)據(jù)生成模塊自動(dòng)統(tǒng)計(jì)生成的對應(yīng)類型文件個(gè)數(shù);
當(dāng)數(shù)據(jù)生成模塊對應(yīng)類型的文件個(gè)數(shù)達(dá)到設(shè)置值時(shí),數(shù)據(jù)生成模塊通知BigDataInitTool;
當(dāng)所有類型文件生成完畢時(shí),本次大數(shù)據(jù)生成任務(wù)結(jié)束。
更優(yōu)地,所述參數(shù)包括總數(shù)量、類型占比、模板、步長、文件大小和文件大小占比。
更優(yōu)地,所述文件的生產(chǎn)總數(shù)等于總數(shù)量*類型占比(即通過總數(shù)量*類型占比得出對應(yīng)類型文件的生成總數(shù));
對應(yīng)大小范圍內(nèi)的文件需要生成的數(shù)量等于類型文件的總數(shù)*文件大小占比(即通過該類型文件的總數(shù)*文件大小占比計(jì)算得出對應(yīng)大小范圍內(nèi)的文件需要生成的數(shù)量)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮軟件集團(tuán)有限公司,未經(jīng)浪潮軟件集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010423154.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





