[發明專利]一種大數據云平臺下多環境配置的數據采集方法有效
| 申請號: | 201711268377.5 | 申請日: | 2017-12-05 |
| 公開(公告)號: | CN108228258B | 公開(公告)日: | 2020-06-19 |
| 發明(設計)人: | 王憶麟;李磊;黃偉國 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F9/4401 | 分類號: | G06F9/4401 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 511458 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 平臺 環境 配置 采集 方法 | ||
本發明公開了一種大數據云平臺下多環境配置的數據采集方法,包括步驟:1)根據提供的配置項,選取對大數據平臺效率影響較大的配置項;2)根據步驟1)選擇的配置項,根據各配置項的范圍進行隨機不重復采樣。本發明通過自動化的辦法找出可取的配置項,并通過不重復采樣,采集到大數據平臺的配置項參數和運行時間,以便不同的使用者選擇最適合自己的配置項參數。
技術領域
本發明涉及大數據平臺下參數采樣的技術領域,尤其是指一種大數據云平臺下多環境配置的數據采集方法。
背景技術
近些年來,隨著互聯網技術的蓬勃發展,大數據的概念不斷被提及。大數據由巨型數據集組成,這些數據集大小常超出人類在可接受時間下的收集、管理和處理能力。為解決這類問題,大數據平臺應運而生。大數據平臺依賴分布式系統,從各種各樣的數據中挖掘出有價值的信息。大數據平臺以其以較快的速度,解決體量巨大、類型多樣的數據,具有極高的價值。
大數據平臺廣泛采用MapReduce架構實現分布式計算的功能。MapReduce是Google提出的一個軟件架構,通過Map(映射)操作和Reduce(歸納)操作兩類操作,來實現對數據的處理。數據集經過一系列的操作過程和數據傳輸過程,最終得到期望的結果。在這個復雜的過程,許多因素都將影響大數據平臺的工作效率,如網絡IO效率、硬盤IO效率、處理器核數、內存大小等。同時,由于大數據平臺廣泛采用MapReduce模型作為計算模型,MapReduce計算時所采用的傳輸模塊大小、不同階段之間的通信方式等因素也極大地影響著MapReduce架構的處理速度,影響著大數據平臺的效率。
為合理地設置大數據平臺中的各項配置項,我們首先需要找出對大數據平臺影響較大的幾類配置項。以往的工作大部分通過人工隨機選取配置項,這樣不僅會舍棄一些重要的配置項,也可能會選擇一些對大數據平臺工作效率影響較小的配置項。故采取一些自動的搜索方法不僅可以選擇出影響更大的配置項,也減少了該項工作的時間。
發明內容
本發明的目的在于克服現有技術的缺點與不足,提出了一種大數據云平臺下多環境配置的數據采集方法,通過自動化的辦法找出可取的配置項,并通過不重復采樣,采集到大數據平臺的配置項參數和運行時間,以便不同的使用者選擇最適合自己的配置項參數。該方法利用二分法和Reservoir Sampling算法提高配置選擇的合理性和采樣的隨機性。
為實現上述目的,本發明所提供的技術方案為:一種大數據云平臺下多環境配置的數據采集方法,包括以下步驟:
1)根據提供的配置項,選取對大數據平臺效率影響大的配置項,具體如下:
1.1)初始化配置項選擇集,將從官方文檔中得到的影響大的配置項加入配置選擇集;
1.2)讀入待選擇配置項集中的第一項的配置項名稱和該配置項的參數空間的上下限范圍;
1.3)使用二分法搜索配置項的參數空間,并通過實際運行情況決定是否將該配置加入配置項選擇集;
1.4)將待選擇配置項集中第一項配置移除;
1.5)判斷待選擇配置項集是否為空,若為空,則得到最終的配置項選擇集,否則,返回步驟1.2),繼續處理其它待選擇配置項;
2)根據步驟1)選擇的配置項,根據各配置項的參數空間的上下限范圍進行隨機不重復采樣,具體如下:
2.1)初始化配置項選擇集中各配置的選擇步長;
2.2)根據各配置項上下限和選擇步長,生成完整的配置項參數集;
2.3)使用Reservoir Sampling算法,從配置項參數集中選擇所需數量的配置項參數,得到采樣集;
2.4)收集采樣集中各元素作為大數據云平臺的配置來處理任務所需的運行時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711268377.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





