[發(fā)明專利]一種基于RDMA的數(shù)據(jù)傳輸方法和分布式共享內(nèi)存系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201811474421.2 | 申請(qǐng)日: | 2018-12-04 |
| 公開(kāi)(公告)號(hào): | CN111277616A | 公開(kāi)(公告)日: | 2020-06-12 |
| 發(fā)明(設(shè)計(jì))人: | 舒繼武;唐小嵐;陸游游;陳游旻;楊洪章;張晗 | 申請(qǐng)(專利權(quán))人: | 中興通訊股份有限公司;清華大學(xué) |
| 主分類號(hào): | H04L29/08 | 分類號(hào): | H04L29/08 |
| 代理公司: | 北京國(guó)昊天誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 11315 | 代理人: | 黎雷;姜鳳巖 |
| 地址: | 518057 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 rdma 數(shù)據(jù)傳輸 方法 分布式 共享 內(nèi)存 系統(tǒng) | ||
1.一種基于遠(yuǎn)程直接內(nèi)存訪問(wèn)RDMA的數(shù)據(jù)傳輸方法,應(yīng)用于分布式共享內(nèi)存系統(tǒng),其特征在于,包括:
第一節(jié)點(diǎn)創(chuàng)建至少兩個(gè)完成隊(duì)列CQ,并將CQ與CPU固定映射;
創(chuàng)建隊(duì)列對(duì)QP鏈路,將至少兩個(gè)QP共享綁定同一個(gè)CQ;
通過(guò)創(chuàng)建的所述QP鏈路并發(fā)向第二節(jié)點(diǎn)發(fā)送數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過(guò)創(chuàng)建的所述QP鏈路并發(fā)向第二節(jié)點(diǎn)發(fā)送數(shù)據(jù),具體包括:
在待發(fā)送數(shù)據(jù)為請(qǐng)求命令時(shí),通過(guò)所述QP鏈路中的第一鏈路發(fā)送;
在待發(fā)送數(shù)據(jù)為內(nèi)存數(shù)據(jù)時(shí),通過(guò)所述QP鏈路中的第二鏈路發(fā)送。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
當(dāng)分布式共享內(nèi)存系統(tǒng)的客戶端讀取到服務(wù)端節(jié)點(diǎn)的數(shù)據(jù)后,計(jì)算校驗(yàn)碼并判斷是否與讀取到的校驗(yàn)碼相同,若兩者相同,則完成讀操作;否則,重新讀取。
4.一種基于RDMA的分布式共享內(nèi)存系統(tǒng),其特征在于,所述共享內(nèi)存系統(tǒng)包括客戶端和服務(wù)端,所述服務(wù)端包括主節(jié)點(diǎn)和副節(jié)點(diǎn),所述共享內(nèi)存系統(tǒng)各節(jié)點(diǎn)通過(guò)RDMA進(jìn)行網(wǎng)絡(luò)互連,并通過(guò)如權(quán)利要求1-3任一所述方法進(jìn)行數(shù)據(jù)傳輸。
5.如權(quán)利要求4所述系統(tǒng),其特征在于,所述系統(tǒng)的各節(jié)點(diǎn)通過(guò)快速兩階段提交協(xié)議進(jìn)行共享內(nèi)存系統(tǒng)的更新操作。
6.如權(quán)利要求5所述系統(tǒng),其特征在于,當(dāng)所述系統(tǒng)的服務(wù)端主節(jié)點(diǎn)接收到來(lái)自客戶端的更新請(qǐng)求時(shí),所述主節(jié)點(diǎn)發(fā)起寫(xiě)操作,將需要更新的內(nèi)容發(fā)送至副節(jié)點(diǎn)的日志區(qū)。
7.如權(quán)利要求5所述系統(tǒng),其特征在于,所述兩階段提交協(xié)議的第一階段具體包括:
所述系統(tǒng)的主節(jié)點(diǎn)向所有副節(jié)點(diǎn)發(fā)起準(zhǔn)備請(qǐng)求prepare,并等待副節(jié)點(diǎn)響應(yīng)。
當(dāng)所述副節(jié)點(diǎn)收到所述主節(jié)點(diǎn)的提交請(qǐng)求時(shí),通過(guò)刷新指令flush將日志持久化;
若副節(jié)點(diǎn)的刷寫(xiě)日志操作執(zhí)行成功,則返回成功消息success,否則返回失敗消息fail。
8.如權(quán)利要求7所述系統(tǒng),其特征在于,所述兩階段提交協(xié)議的第二階段具體包括:
當(dāng)主節(jié)點(diǎn)從各所述副節(jié)點(diǎn)獲得的完成消息都為success時(shí),主節(jié)點(diǎn)向所有副節(jié)點(diǎn)發(fā)出保存請(qǐng)求commit;
當(dāng)所述副節(jié)點(diǎn)收到主節(jié)點(diǎn)的commit請(qǐng)求時(shí),副節(jié)點(diǎn)將日志區(qū)數(shù)據(jù)轉(zhuǎn)寫(xiě)入數(shù)據(jù)區(qū);若寫(xiě)入成功,則釋放事務(wù)期間內(nèi)占用的資源,副節(jié)點(diǎn)向主節(jié)點(diǎn)發(fā)送success消息;
主節(jié)點(diǎn)若收到所有副節(jié)點(diǎn)反饋的success消息,則完成事務(wù)提交,成功返回客戶端。
9.如權(quán)利要求7所述系統(tǒng),其特征在于,若主節(jié)點(diǎn)在第一階段的詢問(wèn)超時(shí)之前沒(méi)有獲取到所有副節(jié)點(diǎn)的success響應(yīng)消息,則主節(jié)點(diǎn)通知所有副節(jié)點(diǎn)刪除日志,返回客戶端寫(xiě)入失敗;
若主節(jié)點(diǎn)在第二階段的詢問(wèn)超時(shí)之前沒(méi)有獲取到所有副節(jié)點(diǎn)的success響應(yīng)消息,則主節(jié)點(diǎn)向未響應(yīng)節(jié)點(diǎn)重復(fù)發(fā)送提交請(qǐng)求,副節(jié)點(diǎn)恢復(fù)工作后,執(zhí)行相應(yīng)提交操作并返回。
10.如權(quán)利要求4所述系統(tǒng),其特征在于,所述系統(tǒng)通過(guò)鎖機(jī)制實(shí)現(xiàn)并發(fā)控制,當(dāng)客戶端發(fā)出更新請(qǐng)求時(shí),檢查需要更新的目標(biāo)區(qū)域,若已上鎖,則等待鎖釋放;否則,對(duì)目標(biāo)區(qū)域加鎖直至完成寫(xiě)操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中興通訊股份有限公司;清華大學(xué),未經(jīng)中興通訊股份有限公司;清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811474421.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 將RDMA語(yǔ)義映射到高速存儲(chǔ)
- 一種基于RDMA的數(shù)據(jù)傳輸方法及RDMA網(wǎng)卡
- RDMA資源泄漏檢測(cè)和報(bào)告
- 一種數(shù)據(jù)訪問(wèn)方法以及相關(guān)裝置
- 內(nèi)存訪問(wèn)方法和裝置
- 一種虛擬硬盤(pán)的映射方法、設(shè)備和云計(jì)算平臺(tái)
- 基于流量負(fù)載預(yù)測(cè)的RDMA緩沖區(qū)動(dòng)態(tài)分配方法
- 基于迭代逼近的RDMA緩沖區(qū)動(dòng)態(tài)分配方法
- 面向分布式文件系統(tǒng)的RDMA通信地址交換方法
- 基于InfiniBand的通信方法、設(shè)備及存儲(chǔ)介質(zhì)
- 一種并發(fā)數(shù)據(jù)傳輸控制方法、裝置及終端
- 數(shù)據(jù)傳輸處理方法和數(shù)據(jù)傳輸器
- 一種數(shù)據(jù)傳輸方法及裝置
- 數(shù)據(jù)傳輸方法、裝置及設(shè)備
- 一種數(shù)據(jù)傳輸終端、方法及系統(tǒng)
- 一種物聯(lián)網(wǎng)數(shù)據(jù)傳輸方式的選擇方法和裝置
- 數(shù)據(jù)傳輸方法、數(shù)據(jù)傳輸裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于電價(jià)的非實(shí)時(shí)數(shù)據(jù)傳輸調(diào)度方法
- 基于云計(jì)算的數(shù)據(jù)傳輸處理方法、裝置及系統(tǒng)
- 一種數(shù)據(jù)處理方法、裝置及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





