[發明專利]一種基于元強化學習的加工變形控制方法有效
| 申請號: | 202110337890.5 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN113156900B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 李迎光;劉長青;黃沖;郝小忠;劉旭;許可 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G05B19/418 | 分類號: | G05B19/418 |
| 代理公司: | 南京天華專利代理有限責任公司 32218 | 代理人: | 瞿網蘭 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 加工 變形 控制 方法 | ||
1.一種基于元強化學習的加工變形控制方法,其特征在于:將至少包含一個零件的變形控制工藝數據作為源數據,將源數據進行分組,并將不同分組的源數據中每個零件的加工變形控制工藝優化作為一個任務,為每個任務分別建立強化學習模型優化加工工藝;基于元學習方法,將建立的強化學習模型作為基模型,通過源數據協同訓練基模型和元模型;當面臨新的加工任務時,通過新任務的少量樣本數據微調元模型得到適應新任務的加工變形控制工藝優化的強化學習模型;所述的強化學習模型中,將工件加工分為若干加工步驟,以工件的加工狀態為狀態,以下一個加工步驟的工藝選擇作為動作,以下一加工狀態和后續的加工狀態作為設計獎勵函數的依據;
所述的獎勵函數設計是指:工件當前的變形狀態和加工完成的變形狀態通過釋放變形或者預測變形得到,獎勵函數通過公式(1)表達,為了能有效設置獎勵函數從而避免獎勵過于稀疏導致模型無法收斂,將分階段進行設置獎勵函數的制定;其中rewardi表示當執行第i個加工步驟的工藝時獲得的獎勵,i表示加工步驟的順序編號,maxdefori表示執行第i個加工步驟的工藝時工件監測到的最大變形的絕對值,maxdefore表示執行最后加工步驟的工藝時工件監測到的最大變形的絕對值,Sm表示加工過程中的某個步驟的順序編號,Se表示加工過程中的最后加工步驟的順序編號,def1與def2分別表示加工過程中執行某個步驟的工藝產生變形的閾值,defe表示執行最后加工步驟的工藝產生變形的閾值;從公式(1)看出,在執行前Sm個步驟的工藝時,當maxdefori大于def1時,將會獲得懲罰R1,R1為大于-1的負數,當maxdefori不大于def1時,將獲得階段性的獎勵R2,R2為小于1的正數;在執行Sm與Se之間步驟的工藝時,當maxdefori大于def2時,將會獲得懲罰R1,當maxdefori不大于def2時,將獲得階段性的獎勵R2;當執行最后一個加工步驟Se的工藝時,將確定零件最終的變形,以零件最終的變形作為獎勵的依據,當maxdefore不大于defe時,獎勵將是defe與maxdefore的比值,是個大于1的獎勵,變形越小獎勵越大;當maxdefore大于defe時,獎勵將是maxdefore與defe的比值的負數,是個小于-1的懲罰,變形越大懲罰越大
2.根據權利要求1所述的基于元強化學習的加工變形控制方法,其特征在于:所述的加工狀態為工件的幾何狀態、變形力監測量和變形值監測量中的一種或任意組合。
3.根據權利要求1所述的基于元強化學習的加工變形控制方法,其特征在于:所述的工藝選擇的動作為切深、切寬、轉速、進給、是否釋放變形、施加預應力和加工順序。
4.根據權利要求1所述的基于元強化學習的加工變形控制方法,其特征在于:所述的源數據為仿真數據,通過對殘余應力分布采樣構建不同的加工仿真環境,采用不同工藝策略作用于該環境,通過工藝策略與加工仿真環境交互得到不同變形控制工藝仿真數據。
5.根據權利要求1所述的基于元強化學習的加工變形控制方法,其特征在于:所述的微調元模型是指:根據新任務的少量樣本數據,通過少量的梯度下降來更新元模型的參數得到適應新任務的參數。
6.根據權利要求1所述的基于元強化學習的加工變形控制方法,其特征在于:所述的強化學習模型通過DQN(Deep Q-Network)、DDPG(Deep Deterministic Policy Gradient)、策略梯度強化學習算法來構建。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110337890.5/1.html,轉載請聲明來源鉆瓜專利網。





