[發(fā)明專利]基于強化學習的集成電路中的路由連接在審
| 申請?zhí)枺?/td> | 202110491701.X | 申請日: | 2021-05-06 |
| 公開(公告)號: | CN113609802A | 公開(公告)日: | 2021-11-05 |
| 發(fā)明(設計)人: | 任昊星;M·福伊季克 | 申請(專利權)人: | 輝達公司 |
| 主分類號: | G06F30/33 | 分類號: | G06F30/33;G06F30/398;G06N3/04;G06N3/08 |
| 代理公司: | 北京市磐華律師事務所 11336 | 代理人: | 高偉 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 集成電路 中的 路由 連接 | ||
1.一種使用強化學習來創(chuàng)建用于路由電路的網(wǎng)的模型的方法,包括:
創(chuàng)建第一圖像和第二圖像,所述第一圖像表示在使用網(wǎng)的路由環(huán)境中連接電路的端子組,所述第二圖像表示用于所述連接的在所述路由環(huán)境中的阻塞,其中所述第一圖像和所述第二圖像具有多個路由層,并且針對所述電路的所述網(wǎng)中的至少一些網(wǎng)而創(chuàng)建;
使用神經(jīng)網(wǎng)絡NN,基于所述網(wǎng)中的至少一些網(wǎng)的所述第一圖像和所述第二圖像,為所述網(wǎng)中的至少一些網(wǎng)創(chuàng)建特征空間圖像;以及
創(chuàng)建策略函數(shù),所述策略函數(shù)提供用于基于所述網(wǎng)中的至少一些網(wǎng)的所述特征空間圖像來選擇用于連接所述端子組的路由動作的概率,其中所述策略函數(shù)的參數(shù)與所述電路的所述網(wǎng)的數(shù)量無關。
2.根據(jù)權利要求1所述的方法,其中所述網(wǎng)中的至少一些網(wǎng)的所述特征空間圖像由高度和寬度限定。
3.根據(jù)權利要求2所述的方法,其中多個特征空間圖像的高度或?qū)挾仁遣煌摹?/p>
4.根據(jù)權利要求1所述的方法,還包括:基于所述網(wǎng)中的至少一些網(wǎng)的所述特征空間圖像的池化來創(chuàng)建價值函數(shù),所述價值函數(shù)為所述端子組的當前路由狀態(tài)提供價值預測器。
5.根據(jù)權利要求4所述的方法,其中所述創(chuàng)建價值函數(shù)包括:將由所述池化生成的向量應用到所述NN的全連接層FC和非線性層ReLu以為所述價值預測器提供單個價值。
6.根據(jù)權利要求4所述的方法,其中所述創(chuàng)建價值函數(shù)基于所有所述網(wǎng)的所述特征空間圖像的池化。
7.根據(jù)權利要求1所述的方法,其中所述創(chuàng)建策略函數(shù)包括:將所述網(wǎng)中的至少一些網(wǎng)的所述特征空間圖像應用于所述NN的全連接層FC和非線性層ReLu以創(chuàng)建具有輸出的陣列,將所述網(wǎng)中的至少一些網(wǎng)的所有輸出組合以生成組合輸出,以及將所述組合輸出提供給所述NN的softmax層以創(chuàng)建用于選擇路由動作的所述概率。
8.根據(jù)權利要求1所述的方法,其中所述創(chuàng)建所述第一圖像和所述第二圖像是針對所有網(wǎng),所述創(chuàng)建所述特征空間圖像是針對所有網(wǎng),以及所述創(chuàng)建所述策略函數(shù)基于所有網(wǎng)的所述特征空間圖像。
9.根據(jù)權利要求1所述的方法,其中所述路由層至少包括端子層、垂直層和水平層。
10.根據(jù)權利要求1所述的方法,其中所述路由層中的至少一個是多方向路由層。
11.根據(jù)權利要求1所述的方法,其中所述路由環(huán)境是三維網(wǎng)格。
12.根據(jù)權利要求1所述的方法,其中所述網(wǎng)的初始數(shù)量為兩個。
13.根據(jù)權利要求1所述的方法,其中所述策略函數(shù)的所述參數(shù)另外與所述電路的大小無關。
14.根據(jù)權利要求1所述的方法,其中所述NN是圖形神經(jīng)網(wǎng)絡GNN。
15.根據(jù)權利要求1所述的方法,其中所述NN是卷積神經(jīng)網(wǎng)絡CNN。
16.一種采用游戲訓練強化學習RL代理以確定電路的路由連接的方法,包括:
由所述RL代理觀察路由環(huán)境中電路的端子位置之間的當前路由狀態(tài);
從所述RL代理向所述路由環(huán)境提供改變所述端子位置之間的當前路由狀態(tài)的路由動作,其中所述RL代理基于與所述電路的所述網(wǎng)的數(shù)量無關的用于路由網(wǎng)的模型來提供所述路由動作;
由所述路由環(huán)境評估所述路由動作;以及
基于所述評估從所述路由環(huán)境向所述RL代理提供一個或更多個獎賞。
17.根據(jù)權利要求16所述的方法,其中用于所述模型的所述網(wǎng)的數(shù)量是兩個。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于輝達公司,未經(jīng)輝達公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110491701.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:光感測電路
- 下一篇:雙通道DDR動態(tài)隨機存取存儲器的減少的糾錯碼





