[發(fā)明專利]基于強化學習的集成電路中的路由連接在審

申請?zhí)枺?/td>	202110491701.X	申請日：	2021-05-06
公開（公告）號：	CN113609802A	公開（公告）日：	2021-11-05
發(fā)明（設計）人：	任昊星;M·福伊季克	申請（專利權）人：	輝達公司
主分類號：	G06F30/33	分類號：	G06F30/33;G06F30/398;G06N3/04;G06N3/08
代理公司：	北京市磐華律師事務所 11336	代理人：	高偉
地址：	美國加利***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于強化學習集成電路中的路由連接
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種使用強化學習來創(chuàng)建用于路由電路的網(wǎng)的模型的方法，包括：

創(chuàng)建第一圖像和第二圖像，所述第一圖像表示在使用網(wǎng)的路由環(huán)境中連接電路的端子組，所述第二圖像表示用于所述連接的在所述路由環(huán)境中的阻塞，其中所述第一圖像和所述第二圖像具有多個路由層，并且針對所述電路的所述網(wǎng)中的至少一些網(wǎng)而創(chuàng)建；

使用神經(jīng)網(wǎng)絡NN，基于所述網(wǎng)中的至少一些網(wǎng)的所述第一圖像和所述第二圖像，為所述網(wǎng)中的至少一些網(wǎng)創(chuàng)建特征空間圖像；以及

創(chuàng)建策略函數(shù)，所述策略函數(shù)提供用于基于所述網(wǎng)中的至少一些網(wǎng)的所述特征空間圖像來選擇用于連接所述端子組的路由動作的概率，其中所述策略函數(shù)的參數(shù)與所述電路的所述網(wǎng)的數(shù)量無關。

2.根據(jù)權利要求1所述的方法，其中所述網(wǎng)中的至少一些網(wǎng)的所述特征空間圖像由高度和寬度限定。

3.根據(jù)權利要求2所述的方法，其中多個特征空間圖像的高度或?qū)挾仁遣煌摹?/p>

4.根據(jù)權利要求1所述的方法，還包括：基于所述網(wǎng)中的至少一些網(wǎng)的所述特征空間圖像的池化來創(chuàng)建價值函數(shù)，所述價值函數(shù)為所述端子組的當前路由狀態(tài)提供價值預測器。

5.根據(jù)權利要求4所述的方法，其中所述創(chuàng)建價值函數(shù)包括：將由所述池化生成的向量應用到所述NN的全連接層FC和非線性層ReLu以為所述價值預測器提供單個價值。

6.根據(jù)權利要求4所述的方法，其中所述創(chuàng)建價值函數(shù)基于所有所述網(wǎng)的所述特征空間圖像的池化。

7.根據(jù)權利要求1所述的方法，其中所述創(chuàng)建策略函數(shù)包括：將所述網(wǎng)中的至少一些網(wǎng)的所述特征空間圖像應用于所述NN的全連接層FC和非線性層ReLu以創(chuàng)建具有輸出的陣列，將所述網(wǎng)中的至少一些網(wǎng)的所有輸出組合以生成組合輸出，以及將所述組合輸出提供給所述NN的softmax層以創(chuàng)建用于選擇路由動作的所述概率。

8.根據(jù)權利要求1所述的方法，其中所述創(chuàng)建所述第一圖像和所述第二圖像是針對所有網(wǎng)，所述創(chuàng)建所述特征空間圖像是針對所有網(wǎng)，以及所述創(chuàng)建所述策略函數(shù)基于所有網(wǎng)的所述特征空間圖像。

9.根據(jù)權利要求1所述的方法，其中所述路由層至少包括端子層、垂直層和水平層。

10.根據(jù)權利要求1所述的方法，其中所述路由層中的至少一個是多方向路由層。

11.根據(jù)權利要求1所述的方法，其中所述路由環(huán)境是三維網(wǎng)格。

12.根據(jù)權利要求1所述的方法，其中所述網(wǎng)的初始數(shù)量為兩個。

13.根據(jù)權利要求1所述的方法，其中所述策略函數(shù)的所述參數(shù)另外與所述電路的大小無關。

14.根據(jù)權利要求1所述的方法，其中所述NN是圖形神經(jīng)網(wǎng)絡GNN。

15.根據(jù)權利要求1所述的方法，其中所述NN是卷積神經(jīng)網(wǎng)絡CNN。

16.一種采用游戲訓練強化學習RL代理以確定電路的路由連接的方法，包括：

由所述RL代理觀察路由環(huán)境中電路的端子位置之間的當前路由狀態(tài)；

從所述RL代理向所述路由環(huán)境提供改變所述端子位置之間的當前路由狀態(tài)的路由動作，其中所述RL代理基于與所述電路的所述網(wǎng)的數(shù)量無關的用于路由網(wǎng)的模型來提供所述路由動作；

由所述路由環(huán)境評估所述路由動作；以及