[發明專利]基于內核旁路技術的Hadoop map-reduce計算加速方法在審
| 申請號: | 201810568335.1 | 申請日: | 2018-06-05 |
| 公開(公告)號: | CN108804040A | 公開(公告)日: | 2018-11-13 |
| 發明(設計)人: | 趙繼勝;吳宇 | 申請(專利權)人: | 上海孚典智能科技有限公司;趙繼勝;吳宇 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06;H04L29/08 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 200082 上海市楊浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 讀寫 內核 旁路 摘要附圖 緩存 數據處理過程 多次迭代 緩存資源 計算過程 網絡帶寬 性能提升 網絡I/O 固態盤 迭代 整合 運算 消耗 網絡 | ||
本發明提供了一種基于內核旁路技術(kernelbypass)的hadoop map?reduce運算加速方法,包括:1.通過內核旁路技術提升對固態盤(SSD)的讀寫速度,2.通過內核旁路技術進行對網絡的高速讀寫。上述兩項高速讀寫技術可以分別對hadoop map?reduce的緩存讀寫和網絡I/O進行加速。Shuffle過程是map?reduce計算中消耗緩存資源和網絡帶寬主要過程(見摘要附圖左側),通過將上述兩項高速讀寫技術進行整合,有效的提升了數據處理過程的性能(見摘要附圖右側)。由于map?reduce計算由多次迭代組成,而每次迭代均包含shuffle過程,因此對shuffle的性能調優對整個map?reduce計算過程帶來顯著性能提升。
技術領域
本發明屬于涉及信息技術領域,尤其是涉及一種基于操作系統內核旁通技術的I/O性能優化的方法,主要用于提升hadoop map-reduce的運算性能。
背景技術
Apache Hadoop作為大數據處理的運算引擎已經在企業,教育,科研等領域廣泛應用。作為一種并行處理的運算引擎,Hadoop以程序開發模型簡單直觀,同時具備良好的容錯能力,使其可以很快的開發應用并部署于海量運算節點上,極大的提升了大數據應用開發的生產率。以Hadoop為運算引擎的各種軟件框架也在飛速發展,例如Spark,Hive,Mahout等等涵蓋從分布式數據倉庫到機器學習等廣泛的應用領域。Hadoop正在日益成為大數據和并行處理方面的一項重要的行業標準。
面對越來越多的應用擴展,作為一種計算引擎,Hadoop必然面臨著性能提升的技術壓力,因此業界和學界都在不斷的探索和研究針對Hadoop運算模型的性能優化技術。在本項專利中,我們提出了使用Intel NVMe[1]協議以內核旁通的方式來提升Hadoop在進行運算過程中的緩存和網絡I/O的性能,從而提升基于Hadoop map-reduce運算的整體效率。
發明內容
針對Hadoop map-reduce運算框架,本專利的目的是提供一種將Hadoop map-reduce過程中的shuffle過程的性能提升的方法,從而提升Hadoop map-reduce運算的整體性能。
為實現上述目的,本發明提供了一種基于內核旁通和IntelNVMe協議的I/O性能提升的方法。使用hadoop開發大數據應用主要是利用hadoop所具備的分布式并行處理能力,而hadoop的分布式并行處理主要基于map-reduce運算模型。map-reduce由如下3步構成:
1.Map過程:將計算任務依據數據進行分片,置于不同的分布式運算節點(例如x86服務器節點)上,多節點進行并行計算;
2.Shuffle過程,將map過程的運算結果數據存入本地存儲介質(機械磁盤或固態盤SSD),然后以shuffle的形式將數據發送至其他節點以進行reduce過程(參見附圖1中的map shuffle);
3.Reduce過程,將各節點發送的數據以reduce計算公式(例如累加,乘積等)進行匯總處理,最后輸出結果(參見附圖1的reduce)。
本項專利所做的性能提升是:針對shuffle過程中的寫入本地存儲介質和分發數據到不同節點以進行reduce過程的這兩個I/O操作進行優化。
對于存儲介質讀寫性能提升,我們利用內核旁通的NVMe設備讀寫方式進行對固態盤SSD進行高效讀寫,避免通過操作系統內核而引發的額外延遲和內存占用;
對于網絡傳輸性能提升,我們利用內核旁通并基于NVMe協議的IP網絡通信方式進行高效的網絡數據傳輸,避免了傳統TCP協議棧中對操作系統內核的訪問。
在本項發明的實現部分我們詳細介紹如何通分別過SPDK[2]和DPDK[3]函數庫(附帶軟件包和驅動)進行對SSD和IP網絡進行高效的基于NVMe的讀寫性能提升
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海孚典智能科技有限公司;趙繼勝;吳宇,未經上海孚典智能科技有限公司;趙繼勝;吳宇許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810568335.1/2.html,轉載請聲明來源鉆瓜專利網。





