[發(fā)明專利]用于訓練強化學習系統(tǒng)的系統(tǒng)和方法在審
| 申請?zhí)枺?/td> | 202211633687.3 | 申請日: | 2022-12-19 |
| 公開(公告)號: | CN116339133A | 公開(公告)日: | 2023-06-27 |
| 發(fā)明(設計)人: | H·馬斯克;德維什·烏帕德亞;J·伯利;迪米塔爾·彼得羅夫·費尤伍;賈斯汀·米勒;R·班尼特 | 申請(專利權)人: | 福特全球技術公司 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 劉小峰;張元 |
| 地址: | 美國密歇根*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 訓練 強化 學習 系統(tǒng) 方法 | ||
1.一種用于訓練強化學習系統(tǒng)的方法,所述方法包括:
從數(shù)字孿生的一個或多個傳感器獲得狀態(tài)信息,其中所述狀態(tài)信息包括在制造模擬期間在所述數(shù)字孿生的第一路線選擇控制位置處的多個托盤的數(shù)量、在所述制造模擬期間在所述第一路線選擇控制位置處的所述多個托盤的類型,或其組合;
基于所述狀態(tài)信息確定所述第一路線選擇控制位置處的動作,其中所述動作包括托盤合并操作和托盤拆分操作中的一者;
基于所述動作確定結果狀態(tài),其中所述結果狀態(tài)包括在所述數(shù)字孿生的后續(xù)路線選擇控制位置處的所述多個托盤的后續(xù)數(shù)量、在所述后續(xù)路線選擇控制位置處的所述多個托盤的類型,或其組合;
基于所述結果狀態(tài)和瞬態(tài)目標函數(shù)計算瞬態(tài)生產值;
基于所述結果狀態(tài)和穩(wěn)態(tài)目標函數(shù)計算穩(wěn)態(tài)生產值;以及
基于所述瞬態(tài)生產值和所述穩(wěn)態(tài)生產值選擇性地調整所述強化學習系統(tǒng)的一個或多個強化參數(shù)。
2.如權利要求1所述的方法,其中所述一個或多個強化參數(shù)包括所述一個或多個傳感器的傳感器布局、所述瞬態(tài)目標函數(shù)、所述穩(wěn)態(tài)目標函數(shù)或其組合。
3.如權利要求2所述的方法,其中選擇性地調整所述一個或多個強化參數(shù)包括調整所述傳感器布局,并且其中調整所述傳感器布局還包括改變所述數(shù)字孿生中的所述一個或多個傳感器的數(shù)量、所述數(shù)字孿生中的所述一個或多個傳感器的放置或其組合。
4.如權利要求3所述的方法,其還包括:調整所述調整后的傳感器布局的所述瞬態(tài)目標函數(shù)的閾值瞬態(tài)生產值、所述調整后的傳感器布局的所述穩(wěn)態(tài)目標函數(shù)的閾值穩(wěn)態(tài)生產值或其組合。
5.如權利要求1至4中任一項所述的方法,其中所述一個或多個強化參數(shù)包括所述狀態(tài)信息、所述動作或其組合。
6.如權利要求1至4中任一項所述的方法,其中所述瞬態(tài)目標函數(shù)和所述穩(wěn)態(tài)目標函數(shù)是基于與所述多個托盤中的第一類型的托盤相關聯(lián)的第一目標生產值和與所述多個托盤中的第二類型的托盤相關聯(lián)的第二目標生產值。
7.如權利要求6所述的方法,其中所述瞬態(tài)目標函數(shù)是基于位于所述后續(xù)路線選擇控制位置處的所述第一類型的托盤的第一數(shù)量與所述第二類型的托盤的第二數(shù)量之間的比率。
8.如權利要求6所述的方法,其中所述穩(wěn)態(tài)目標函數(shù)是基于位于所述后續(xù)路線選擇控制位置與目的地之間的所述第一類型的托盤的第一數(shù)量與所述第二類型的托盤的第二數(shù)量之間的比率。
9.如權利要求6所述的方法,其中所述瞬態(tài)目標函數(shù)和所述穩(wěn)態(tài)目標函數(shù)是基于指示所述第一目標生產值與所述第一目標生產值和所述第二目標生產值的總和的比率的生產比率。
10.一種用于訓練強化學習系統(tǒng)的系統(tǒng),所述系統(tǒng)包括:
處理器;以及
非暫時性計算機可讀介質,所述非暫時性計算機可讀介質包括能夠由所述處理器執(zhí)行的指令,其中所述指令包括:
從數(shù)字孿生的一個或多個傳感器獲得狀態(tài)信息,其中所述狀態(tài)信息包括在制造模擬期間在所述數(shù)字孿生的第一路線選擇控制位置處的多個托盤的數(shù)量、在所述制造模擬期間在所述第一路線選擇控制位置處的所述多個托盤的類型,或其組合;
基于所述狀態(tài)信息確定所述第一路線選擇控制位置處的動作,其中所述動作包括托盤合并操作和托盤拆分操作中的一者;
基于所述動作確定結果狀態(tài),其中所述結果狀態(tài)包括在所述數(shù)字孿生的后續(xù)路線選擇控制位置處的所述多個托盤的后續(xù)數(shù)量、在所述后續(xù)路線選擇控制位置處的所述多個托盤的類型,或其組合;
基于所述結果狀態(tài)和瞬態(tài)目標函數(shù)計算瞬態(tài)生產值;
基于所述結果狀態(tài)和穩(wěn)態(tài)目標函數(shù)計算穩(wěn)態(tài)生產值;以及
基于所述瞬態(tài)生產值和所述穩(wěn)態(tài)生產值選擇性地調整所述強化學習系統(tǒng)的一個或多個強化參數(shù),其中所述瞬態(tài)目標函數(shù)和所述穩(wěn)態(tài)目標函數(shù)是基于與所述多個托盤中的第一類型的托盤相關聯(lián)的第一目標生產值和與所述多個托盤中的第二類型的托盤相關聯(lián)的第二目標生產值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福特全球技術公司,未經福特全球技術公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211633687.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:發(fā)光元件和用于其的胺化合物
- 下一篇:顯示裝置





