[發(fā)明專利]一種基于預(yù)測(cè)的交換機(jī)PFC控制方法及控制系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201711224754.5 | 申請(qǐng)日: | 2017-11-29 |
| 公開(公告)號(hào): | CN107948103B | 公開(公告)日: | 2020-06-30 |
| 發(fā)明(設(shè)計(jì))人: | 楊杰;李波;田臣;王煒 | 申請(qǐng)(專利權(quán))人: | 南京大學(xué) |
| 主分類號(hào): | H04L12/935 | 分類號(hào): | H04L12/935;H04L12/931;H04L12/801;H04L12/825;H04L12/835;H04L12/851;H04L12/861 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 戴朝榮 |
| 地址: | 210093 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 預(yù)測(cè) 交換機(jī) pfc 控制 方法 控制系統(tǒng) | ||
本發(fā)明提供了一種基于預(yù)測(cè)的交換機(jī)PFC控制方法及控制系統(tǒng)。所述基于預(yù)測(cè)的交換機(jī)PFC控制方法包括如下步驟:監(jiān)測(cè)交換機(jī)端口的出隊(duì)列,判斷出隊(duì)列的長(zhǎng)度是否超過閾值,如果出隊(duì)列的長(zhǎng)度超過閾值,預(yù)測(cè)交換機(jī)需要發(fā)送PFC暫停報(bào)文;如果預(yù)測(cè)交換機(jī)需要發(fā)送PFC暫停報(bào)文,預(yù)測(cè)需要向哪些端口發(fā)送PFC暫停報(bào)文,輸出應(yīng)發(fā)送PFC暫停報(bào)文的“入口端號(hào)+優(yōu)先級(jí)”集合,記作集合S;在所述集合S中,分別對(duì)每個(gè)“入口端號(hào)+優(yōu)先級(jí)”計(jì)算PFC暫停時(shí)間;根據(jù)PFC暫停時(shí)間構(gòu)建并輸出“入口端號(hào)+優(yōu)先級(jí)+暫停時(shí)間”集合,記作集合T,交換機(jī)遍歷所述集合T,將每一“入口端號(hào)+優(yōu)先級(jí)+暫停時(shí)間”中的優(yōu)先級(jí)和暫停時(shí)間填入到PFC暫停報(bào)文中,并通過端口發(fā)送出去。
技術(shù)領(lǐng)域
本發(fā)明屬于涉及一種基于預(yù)測(cè)的交換機(jī)PFC控制方法及控制系統(tǒng)。
背景技術(shù)
遠(yuǎn)程直接內(nèi)存訪問(RDMA,Remote Direct Memory Access)是一個(gè)相對(duì)比較成熟的技術(shù),在高性能計(jì)算領(lǐng)域已經(jīng)廣泛應(yīng)用。由于RDMA低時(shí)延,高帶寬和低CPU占用率的特性,近些年數(shù)據(jù)中心也開始采用RDMA技術(shù)加速業(yè)務(wù)的網(wǎng)絡(luò)傳輸速度。高性能計(jì)算領(lǐng)域中廣泛應(yīng)用的RDMA技術(shù)方案是InfiniBand,目前數(shù)據(jù)中心中流行的方案是RoCEv2(RDMA OverConverged Ethernet v2),其將InfiniBand的網(wǎng)絡(luò)層和鏈路層協(xié)議替換為以太網(wǎng)對(duì)應(yīng)的協(xié)議,InfiniBand的傳輸層和RDMA應(yīng)用API保持不變,舊有的RDMA代碼可以方便地移植到RoCEv2環(huán)境中。
與傳統(tǒng)的TCP/IP網(wǎng)絡(luò)不同,RDMA技術(shù)要求網(wǎng)絡(luò)是無損的,即網(wǎng)絡(luò)傳輸中不允許出現(xiàn)因交換機(jī)緩沖溢出而丟包。以太網(wǎng)協(xié)議中,目前使用基于優(yōu)先級(jí)的流控(PFC,Priority-based Flow Control)協(xié)議保證網(wǎng)絡(luò)是無損的。PFC是一個(gè)逐跳起作用的二層網(wǎng)絡(luò)協(xié)議,交換機(jī)會(huì)檢測(cè)每個(gè)端口每個(gè)優(yōu)先級(jí)的入隊(duì)列長(zhǎng)度,在長(zhǎng)度超過設(shè)定的閾值Xoff后,交換機(jī)會(huì)通過該端口向上游端口發(fā)送PFC暫停報(bào)文,上游端口收到該報(bào)文后立刻停止發(fā)送該優(yōu)先級(jí)的數(shù)據(jù);當(dāng)入隊(duì)列長(zhǎng)度低于設(shè)定的閾值Xon后,交換機(jī)可以向上游端口發(fā)送PFC恢復(fù)報(bào)文,上游端口收到恢復(fù)報(bào)文后,立刻恢復(fù)數(shù)據(jù)發(fā)送。PFC是暫停端口中某個(gè)優(yōu)先級(jí)的數(shù)據(jù)發(fā)送,而不是端口的數(shù)據(jù)發(fā)送。
但是,PFC的引入會(huì)導(dǎo)致以下問題:由于PFC的流控粒度是針對(duì)優(yōu)先級(jí)的,這是一個(gè)比較粗的控制粒度(交換機(jī)每個(gè)端口只支持8個(gè)優(yōu)先級(jí)),PFC會(huì)導(dǎo)致流的不公平和隊(duì)頭阻塞(Head-of-line blocking)等問題。為解決此問題,目前主流的方法是采用DCQCN(DataCenter QCN)擁塞控制機(jī)制。DCQCN采用RED-ECN(Random Early Detection-ExplicitCongestion Notification)作為擁塞信號(hào)產(chǎn)生方式,即交換機(jī)出隊(duì)列長(zhǎng)度在超過閾值后,交換機(jī)根據(jù)隊(duì)列長(zhǎng)度按照一定的概率對(duì)報(bào)文打上ECN擁塞標(biāo)志,隊(duì)列長(zhǎng)度越長(zhǎng),打標(biāo)的概率越大。接收方在收到帶有ECN標(biāo)記的報(bào)文后,會(huì)產(chǎn)生信令報(bào)文CNP(CongestionNotification Packet)通知數(shù)據(jù)發(fā)送方降速。發(fā)送方如果在一段時(shí)間內(nèi)沒有繼續(xù)收到CNP報(bào)文,則開始主動(dòng)恢復(fù)發(fā)送速度。
DCQCN作為端到端擁塞控制機(jī)制,從擁塞信號(hào)產(chǎn)生,到接收端相應(yīng)擁塞信號(hào),再到源端收到CNP報(bào)文降速,要經(jīng)歷一個(gè)往返時(shí)延(RTT,Round Trip Time),在某些場(chǎng)景下,DCQCN的收斂速度會(huì)比較慢,尤其是incast情形(多臺(tái)主機(jī)同時(shí)向一臺(tái)主機(jī)發(fā)送數(shù)據(jù))。收斂速度變慢會(huì)影響交換機(jī)端口的出隊(duì)列擁塞程度增加,從而導(dǎo)致流經(jīng)該出端口的報(bào)文時(shí)延變長(zhǎng)。在時(shí)延敏感的應(yīng)用中,這樣的情況是幾乎不能忍受的。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的缺陷,提供一種基于預(yù)測(cè)的交換機(jī)PFC控制方法及控制系統(tǒng),采用主動(dòng)預(yù)測(cè)的方法,利用PFC暫停報(bào)文,將交換機(jī)緩沖維持在較低的水平,在不影響網(wǎng)絡(luò)吞吐量的情形下,極大地減少了數(shù)據(jù)中心中RDMA網(wǎng)絡(luò)的尾時(shí)延。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711224754.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測(cè)方法及裝置、預(yù)測(cè)模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測(cè)的方法及裝置
- 圖像預(yù)測(cè)方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本預(yù)測(cè)方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 堆疊式交換機(jī)管理方法
- 通信路由控制系統(tǒng)和通信路由控制方法
- 一種組播報(bào)文的傳輸方法及交換機(jī)
- 一種通過主交換機(jī)對(duì)堆疊中的所有從交換機(jī)進(jìn)行管理的方法
- 一種光電混合網(wǎng)絡(luò)、系統(tǒng)確定方法以及接入交換機(jī)
- 一種交換網(wǎng)絡(luò)、控制器及負(fù)載均衡方法
- 一種三層網(wǎng)絡(luò)鏈路冗余的組網(wǎng)方法
- 交換機(jī)維護(hù)方法、裝置、交換機(jī)、終端和可讀存儲(chǔ)介質(zhì)
- 一種基于PLC調(diào)控的工業(yè)網(wǎng)管交換機(jī)
- 一種基于樹形網(wǎng)絡(luò)的地鐵列車時(shí)分無線通信系統(tǒng)





