[發(fā)明專利]一種大數(shù)據(jù)存儲(chǔ)優(yōu)化方法在審
| 申請(qǐng)?zhí)枺?/td> | 201811528694.0 | 申請(qǐng)日: | 2018-12-13 |
| 公開(公告)號(hào): | CN109669987A | 公開(公告)日: | 2019-04-23 |
| 發(fā)明(設(shè)計(jì))人: | 王芳;李宏峰;周茜;王曉甜;賀子洋;李沖;陳朝暉;崔江洪;石磊;甄綱;路磊;趙利軍;黃朝霞;李昕;李云龍;范盛榮;劉國(guó)平 | 申請(qǐng)(專利權(quán))人: | 國(guó)網(wǎng)河北省電力有限公司石家莊供電分公司;國(guó)網(wǎng)河北省電力有限公司;國(guó)家電網(wǎng)有限公司;武漢盛捷達(dá)電力科技有限責(zé)任公司 |
| 主分類號(hào): | G06F16/27 | 分類號(hào): | G06F16/27;G06F16/22;H04L29/08 |
| 代理公司: | 石家莊新世紀(jì)專利商標(biāo)事務(wù)所有限公司 13100 | 代理人: | 陳建民;董金國(guó) |
| 地址: | 050000 *** | 國(guó)省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分布式存儲(chǔ) 分布式系統(tǒng) 存儲(chǔ)優(yōu)化 監(jiān)測(cè)數(shù)據(jù) 大數(shù)據(jù) 存儲(chǔ)和管理 并行處理 分布策略 檢測(cè)數(shù)據(jù) 數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)分布 數(shù)據(jù)節(jié)點(diǎn) 數(shù)據(jù)處理 并行化 集群 數(shù)據(jù)庫(kù) | ||
本發(fā)明涉及一種大數(shù)據(jù)存儲(chǔ)優(yōu)化方法,其將檢測(cè)數(shù)據(jù)在RDD中進(jìn)行分布式存儲(chǔ);將數(shù)據(jù)以RDD的方式分布式存儲(chǔ)在Spark集群的數(shù)據(jù)節(jié)點(diǎn)中,然后基于Spark進(jìn)行并行化KNN算法;本發(fā)明在HDFS基礎(chǔ)上,建立分布式的面向列的數(shù)據(jù)庫(kù)HBase,用于海量監(jiān)測(cè)數(shù)據(jù)的存儲(chǔ)和管理。監(jiān)測(cè)數(shù)據(jù)在分布式系統(tǒng)中的數(shù)據(jù)分布策略,使用分布式系統(tǒng)進(jìn)行數(shù)據(jù)存儲(chǔ)和并行處理即數(shù)據(jù)的分布策略提升數(shù)據(jù)處理的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及一種大數(shù)據(jù)存儲(chǔ)優(yōu)化方法。
背景技術(shù)
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等應(yīng)用的飛速發(fā)展,全球數(shù)據(jù)量出現(xiàn)了爆炸式增長(zhǎng)。數(shù)據(jù)量的飛速增長(zhǎng)預(yù)示著現(xiàn)在已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。
數(shù)據(jù)按類型分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中結(jié)構(gòu)化數(shù)據(jù)是指能夠以二維結(jié)構(gòu)表示的一種數(shù)據(jù)類型,能通過關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ);半結(jié)構(gòu)化數(shù)據(jù)是指具有一定結(jié)構(gòu),但語義不夠明確的一種數(shù)據(jù)類型,如郵件、HTML網(wǎng)頁等,它們有些字段是確定的,也有些字段是不確定的;非結(jié)構(gòu)化數(shù)據(jù)是指無法用二維結(jié)構(gòu)表示的一種數(shù)據(jù)類型,主要包括辦公文檔、文本、圖片、音視頻文件等,無法采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行處理。伴隨社交網(wǎng)絡(luò)的興起和發(fā)展,產(chǎn)生了大量的UGC(User Generated Content,用戶生成內(nèi)容),包括音頻、視頻、文本和圖片等非結(jié)構(gòu)化數(shù)據(jù)。在所有數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的20%,半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的80%,如何科學(xué)管理和合理應(yīng)用這些數(shù)據(jù)顯得日益重要。
現(xiàn)有技術(shù)中對(duì)大數(shù)據(jù)的處理采用基于Hadoop的平臺(tái)。Hadoop是一個(gè)開源分布式計(jì)算平臺(tái),其核心包括HDFS(Hadoop Distributed Files System,Hadoop分布式文件系統(tǒng))。HDFS的眾多優(yōu)點(diǎn)(主要包括高容錯(cuò)性、高伸縮性等)允許用戶將Hadoop部署在低廉的硬件上,搭建分布式集群,構(gòu)成分布式系統(tǒng)。HBase(Hadoop DataBase,Hadoop數(shù)據(jù)庫(kù))是建立在分布式文件系統(tǒng)HDFS之上的提供高可靠性、高性能、列存儲(chǔ)、可伸縮、實(shí)時(shí)讀寫的分布式數(shù)據(jù)庫(kù)系統(tǒng)。
主流大數(shù)據(jù)并行計(jì)算系統(tǒng)在設(shè)計(jì)與實(shí)現(xiàn)的過程中通常只重點(diǎn)考慮某類大數(shù)據(jù)應(yīng)用的共性問題,這些系統(tǒng)在處理具有其他特性的大數(shù)據(jù)分析應(yīng)用問題時(shí),存在性能優(yōu)化的空間。Hadoop主要是針對(duì)離線批處理的大數(shù)據(jù)應(yīng)用而設(shè)計(jì)的,其更多地追求高吞吐率而非低延時(shí)性。因此,Hadoop在處理大數(shù)據(jù)流計(jì)算問題時(shí)性能比較低下。
針對(duì)主流大數(shù)據(jù)并行計(jì)算系統(tǒng)Hadoop MapReduce在執(zhí)行短作業(yè)的場(chǎng)景,以及大數(shù)據(jù)并行計(jì)算系統(tǒng)Spark在JVM堆存儲(chǔ)(Heap Storage)高消耗的場(chǎng)景,本專利進(jìn)行了相關(guān)性能優(yōu)化研究,提高系統(tǒng)處理能力。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種大數(shù)據(jù)存儲(chǔ)優(yōu)化方法,使用該方法可以有效提高后續(xù)數(shù)據(jù)處理的效率。
本發(fā)明所采用的技術(shù)方案是:一種大數(shù)據(jù)存儲(chǔ)優(yōu)化方法,其包括如下步驟:
步驟一、將檢測(cè)數(shù)據(jù)在RDD中進(jìn)行分布式存儲(chǔ);將數(shù)據(jù)以RDD的方式分布式存儲(chǔ)在Spark集群的數(shù)據(jù)節(jié)點(diǎn)中。
步驟二、基于Spark進(jìn)行并行化KNN算法。
基于Spark進(jìn)行并行化KNN算法的具體算法過程為:
步驟一、初始化SparkContext環(huán)境參數(shù)。
步驟二、加載訓(xùn)練樣本集TrainSet到RDD,在Spark集群的節(jié)點(diǎn)的內(nèi)存中分布式存儲(chǔ)TrainSet;執(zhí)行RDD.map()算子,并行完成Ti-ainSet的格式轉(zhuǎn)換,結(jié)果多元組形式。
步驟三、執(zhí)行RDD.collect()算子,將分布式的RDD返回到Driver程序所在的節(jié)點(diǎn),以scala Array數(shù)組形式存儲(chǔ),命名為TrainSet Array。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)網(wǎng)河北省電力有限公司石家莊供電分公司;國(guó)網(wǎng)河北省電力有限公司;國(guó)家電網(wǎng)有限公司;武漢盛捷達(dá)電力科技有限責(zé)任公司,未經(jīng)國(guó)網(wǎng)河北省電力有限公司石家莊供電分公司;國(guó)網(wǎng)河北省電力有限公司;國(guó)家電網(wǎng)有限公司;武漢盛捷達(dá)電力科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811528694.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種分布式存儲(chǔ)系統(tǒng)中塊存儲(chǔ)數(shù)據(jù)的訪問方法及系統(tǒng)
- 一種分布式數(shù)據(jù)存儲(chǔ)的方法和系統(tǒng)
- 數(shù)據(jù)虛擬化存儲(chǔ)方法和裝置
- 分布式數(shù)據(jù)存儲(chǔ)集群的切換方法及切換指令發(fā)送方法和裝置
- 一種分布式存儲(chǔ)系統(tǒng)的測(cè)試方法和裝置
- 一種分布式存儲(chǔ)使用容量預(yù)估方法及裝置
- 一種基于客戶端的分布式存儲(chǔ)負(fù)載均衡方法及裝置
- 分布式存儲(chǔ)系統(tǒng)構(gòu)建方法、裝置、設(shè)備、介質(zhì)
- 一種影像數(shù)據(jù)的分布式存儲(chǔ)方法、分析方法及裝置
- 訪問分布式存儲(chǔ)集群的方法及裝置、設(shè)備、存儲(chǔ)介質(zhì)
- 一種分布式系統(tǒng)及其實(shí)現(xiàn)管理的方法
- 分布式跟蹤系統(tǒng)
- 一種分布式存儲(chǔ)系統(tǒng)中塊存儲(chǔ)數(shù)據(jù)的訪問方法及系統(tǒng)
- 一種在指定分布式系統(tǒng)中接入指定計(jì)算模型的方法和裝置
- 一種分布式電源監(jiān)控系統(tǒng)
- 一種光伏分布式能源系統(tǒng)
- 用于提供個(gè)人分布式分類賬的系統(tǒng)和方法
- 分布式系統(tǒng)服務(wù)異常的處理方法及裝置
- 分布式任務(wù)處理方法、裝置、系統(tǒng)、機(jī)器人和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)同步方法、裝置、多活系統(tǒng)及存儲(chǔ)介質(zhì)
- 具有優(yōu)化程序的音頻/視頻設(shè)備及優(yōu)化音頻/視頻信號(hào)的方法
- 軌道交通管理裝置和方法
- 測(cè)量程序優(yōu)化系統(tǒng)及方法
- 為存儲(chǔ)優(yōu)化操作分配存儲(chǔ)設(shè)備的資源的方法和系統(tǒng)
- 一種生物信息學(xué)高性能計(jì)算平臺(tái)的存儲(chǔ)配置以及優(yōu)化策略
- 一種高速大數(shù)據(jù)存儲(chǔ)方法
- 文件存儲(chǔ)優(yōu)化方法和裝置
- 一種數(shù)據(jù)存儲(chǔ)規(guī)則自動(dòng)推薦方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 分布式存儲(chǔ)系統(tǒng)的優(yōu)化方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)
- 存儲(chǔ)空間的存儲(chǔ)優(yōu)化方法、裝置、設(shè)備和介質(zhì)
- 在線監(jiān)測(cè)系統(tǒng)中控制監(jiān)測(cè)數(shù)據(jù)入庫(kù)的方法和裝置
- 數(shù)據(jù)監(jiān)測(cè)系統(tǒng)和數(shù)據(jù)監(jiān)測(cè)方法
- 數(shù)據(jù)監(jiān)測(cè)方法及系統(tǒng)
- 監(jiān)測(cè)數(shù)據(jù)的查詢方法、裝置和計(jì)算機(jī)設(shè)備
- 應(yīng)用于污水處理的水質(zhì)監(jiān)測(cè)方法
- 數(shù)據(jù)庫(kù)異常監(jiān)測(cè)方法、裝置、計(jì)算機(jī)裝置及存儲(chǔ)介質(zhì)
- 用于監(jiān)測(cè)區(qū)域水質(zhì)的優(yōu)化布點(diǎn)方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種道路監(jiān)控預(yù)警系統(tǒng)
- 用于數(shù)據(jù)上報(bào)的方法、裝置和智能家電設(shè)備
- 一種管道的檢測(cè)預(yù)警方法及系統(tǒng)





