[發(fā)明專利]針對AI計算集群的運行頻率控制方法、系統(tǒng)及相關(guān)設(shè)備在審
| 申請?zhí)枺?/td> | 202310203474.5 | 申請日: | 2023-03-06 |
| 公開(公告)號: | CN116069152A | 公開(公告)日: | 2023-05-05 |
| 發(fā)明(設(shè)計)人: | 章弋嘉;林哲;王丙強(qiáng);徐鵬翔;田永鴻 | 申請(專利權(quán))人: | 鵬城實驗室 |
| 主分類號: | G06F1/3234 | 分類號: | G06F1/3234;G06F9/50 |
| 代理公司: | 深圳市君勝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44268 | 代理人: | 陳專 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 針對 ai 計算 集群 運行 頻率 控制 方法 系統(tǒng) 相關(guān) 設(shè)備 | ||
1.一種針對AI計算集群的運行頻率控制方法,其特征在于,所述方法包括:
采集獲取AI計算集群中各AI處理器對應(yīng)的處理器狀態(tài)數(shù)據(jù)集合,其中,一個AI處理器對應(yīng)的處理器狀態(tài)數(shù)據(jù)集合中包括該AI處理器在不同運行頻率下獲得的多組硬件狀態(tài)數(shù)據(jù),一組所述硬件狀態(tài)數(shù)據(jù)包括功耗和硬件指標(biāo)數(shù)據(jù);
根據(jù)各所述AI處理器對應(yīng)的處理器狀態(tài)數(shù)據(jù)集合分別構(gòu)建各所述AI處理器對應(yīng)的頻率關(guān)系模型,其中,一個AI處理器對應(yīng)的頻率關(guān)系模型體現(xiàn)該AI處理器的運行頻率、性能和功耗之間的關(guān)系;根據(jù)各所述AI處理器對應(yīng)的頻率關(guān)系模型,分別獲取各所述AI處理器對應(yīng)的最優(yōu)運行頻率,其中,一個AI處理器對應(yīng)的最優(yōu)運行頻率是該AI處理器對應(yīng)的所有候選運行頻率中能效比最高的一個候選運行頻率,一個AI處理器對應(yīng)的候選運行頻率包括根據(jù)該AI處理器對應(yīng)的頻率關(guān)系模型獲取的滿足預(yù)設(shè)性能約束條件的運行頻率,所述能效比是性能與功耗的比值;
根據(jù)各所述AI處理器對應(yīng)的最優(yōu)運行頻率,分別對所述AI計算集群中的各所述AI處理器進(jìn)行運行頻率控制。
2.根據(jù)權(quán)利要求1所述的針對AI計算集群的運行頻率控制方法,其特征在于,所述采集獲取AI計算集群中各AI處理器對應(yīng)的處理器狀態(tài)數(shù)據(jù)集合,包括:
獲取各所述AI處理器對應(yīng)的采樣間隔;
根據(jù)各所述AI處理器對應(yīng)的采樣間隔分別對各所述AI處理器的運行頻率進(jìn)行多次調(diào)整,在每一次調(diào)整所述AI處理器的運行頻率后采集獲取所述AI處理器對應(yīng)的一組硬件狀態(tài)數(shù)據(jù);
根據(jù)各所述AI處理器對應(yīng)的所有硬件狀態(tài)數(shù)據(jù)獲取各所述AI處理器對應(yīng)的處理器狀態(tài)數(shù)據(jù)集合。
3.根據(jù)權(quán)利要求2所述的針對AI計算集群的運行頻率控制方法,其特征在于,所述采樣間隔根據(jù)對應(yīng)的AI處理器的硬件采樣延遲確定。
4.根據(jù)權(quán)利要求1所述的針對AI計算集群的運行頻率控制方法,其特征在于,所述AI計算集群中的AI處理器包括圖形處理器、嵌入式神經(jīng)網(wǎng)絡(luò)處理器和張量處理器中的至少一種。
5.根據(jù)權(quán)利要求1所述的針對AI計算集群的運行頻率控制方法,其特征在于,所述硬件指標(biāo)數(shù)據(jù)包括計算單元利用率、內(nèi)存利用率、內(nèi)存帶寬利用率、內(nèi)存占用大小、算數(shù)單元利用率、指令通道占用比、內(nèi)存讀寫帶寬、緩存讀寫帶寬和資源沖突占比中的至少一種。
6.根據(jù)權(quán)利要求1所述的針對AI計算集群的運行頻率控制方法,其特征在于,所述頻率關(guān)系模型包括頻率性能子模型和頻率功耗子模型。
7.根據(jù)權(quán)利要求6所述的針對AI計算集群的運行頻率控制方法,其特征在于,一個AI處理器對應(yīng)的頻率功耗子模型根據(jù)如下步驟構(gòu)建:
根據(jù)預(yù)設(shè)的第一數(shù)據(jù)擬合方式,對所述AI處理器的功耗以及各所述功耗對應(yīng)的運行頻率進(jìn)行數(shù)據(jù)擬合獲得所述頻率功耗子模型;
其中,所述第一數(shù)據(jù)擬合方式是線性擬合或二次函數(shù)擬合。
8.根據(jù)權(quán)利要求7所述的針對AI計算集群的運行頻率控制方法,其特征在于,一個AI處理器對應(yīng)的頻率性能子模型根據(jù)如下步驟構(gòu)建:
獲取預(yù)設(shè)的硬件指標(biāo)性能關(guān)系,其中,所述硬件指標(biāo)性能關(guān)系是所述AI處理器的硬件指標(biāo)數(shù)據(jù)與性能之間的對應(yīng)關(guān)系,所述性能是所述AI處理器中應(yīng)用程序在所述AI計算集群中的運行速度;
根據(jù)預(yù)設(shè)的第二數(shù)據(jù)擬合方式,對所述AI處理器的硬件指標(biāo)數(shù)據(jù)以及各所述硬件指標(biāo)數(shù)據(jù)對應(yīng)的運行頻率進(jìn)行數(shù)據(jù)擬合獲得頻率硬件指標(biāo)關(guān)系,其中,所述頻率硬件指標(biāo)關(guān)系是所述AI處理器的運行頻率與硬件指標(biāo)數(shù)據(jù)之間的對應(yīng)關(guān)系;
根據(jù)所述硬件指標(biāo)性能關(guān)系和所述頻率硬件指標(biāo)關(guān)系獲取所述頻率性能子模型;
其中,所述第二數(shù)據(jù)擬合方式是線性擬合或分段線性擬合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鵬城實驗室,未經(jīng)鵬城實驗室許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310203474.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- AI接口平臺及其應(yīng)用方法、AI應(yīng)用系統(tǒng)
- AI行為調(diào)用方法和裝置
- 人工智能平臺實現(xiàn)方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 人工智能的病種分析方法及裝置、存儲介質(zhì)、計算機(jī)設(shè)備
- 一種處理AI任務(wù)的方法及裝置
- 提供AI模型的方法、AI平臺、計算設(shè)備及存儲介質(zhì)
- 一種自適應(yīng)AI模型部署方法
- 分離AI中的公共知識與私有知識
- 應(yīng)用于城市大腦的AI算法和AI模型的調(diào)配系統(tǒng)及方法
- 云服務(wù)方法、裝置、設(shè)備及存儲介質(zhì)
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計算機(jī)介質(zhì)
- 混合云場景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計算機(jī)存儲介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲介質(zhì)





