[發明專利]一種基于元強化學習的加工變形控制方法有效
| 申請號: | 202110337890.5 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN113156900B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 李迎光;劉長青;黃沖;郝小忠;劉旭;許可 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G05B19/418 | 分類號: | G05B19/418 |
| 代理公司: | 南京天華專利代理有限責任公司 32218 | 代理人: | 瞿網蘭 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 加工 變形 控制 方法 | ||
一種基于元強化學習的加工變形控制方法,其特征是將不同分組的源數據中每個零件的加工變形控制工藝優化作為一個任務,為每個任務分別建立強化學習模型,將工件加工分為若干加工步驟,以工件的加工狀態為狀態,以下一個加工步驟的工藝選擇作為動作,以下一加工狀態和后續的加工狀態作為設計獎勵函數的依據;基于元學習方法,將每個強化學習模型作為基模型,通過源數據協同訓練基模型和元模型;當面臨新的加工任務時,通過新任務的少量樣本數據微調元模型得到適應新任務的加工變形控制工藝優化的強化學習模型。本發明提高了變形控制的效果,可以實現加工工藝的在線優化,減少了對實際加工工藝數據的需求。
技術領域
本發明涉及數控加工領域,尤其是涉及一種零件數控加工變形控制方法,具體地說是一種基于元強化學習的加工變形控制方法。
背景技術
加工變形是造成零件加工質量問題的主要原因之一,所以加工變形控制也成為保證零件質量的重要方面。加工過程中的工藝優化是加工變形控制的有效途徑,對零件最終的變形有重要作用,盡管加工完成后的變形可以通過校形處理,但校形工藝復雜,工作量大,容易引起工件開裂,控制的精度仍然難以達到高精度變形控制要求,通過加工過程中的工藝優化來減小加工完成后的變形可以有效減輕校形的負擔。已有方法主要是基于殘余應力預測或檢測進行加工變形預測,進而在離線狀態下根據已有的變形預測結果進行加工工藝優化從而實現加工變形控制。然而由于殘余應力高精度預測和檢測難度大,且加工過程中存在大量不確定性因素,事前確定的加工工藝難以滿足變形控制需求。
針對以上問題,一種有效的手段是利用加工中監測得到的物理量來反映工件的變形狀態。零件的數控加工通常分為若干步驟,每個步驟都有一定的加工工藝,在加工過程中完成每個步驟的加工工藝都會產生一定的變形。在加工過程中工件被夾具所約束,無法釋放變形,當前工件的變形不包含前面步驟加工變形的累積量,即當前工件變形只是在上一工件狀態及上一加工步驟工藝的作用下產生,因此當前工件變形狀態只取決于上一步加工變形與動作,可以看出該過程具有馬爾科夫性,通過強化學習方法優化每個步驟的加工工藝從而實現變形控制是一種有效手段,但是由于每個零件的殘余應力狀態不同,用同一零件的變形控制工藝數據訓練得到的變形控制工藝優化強化學習模型在面對新的加工任務時難以保證模型的泛化能力,且強化學習等機器學習算法的學習需要大量的樣本數據,這在制造環境下是難以實現的,如何用小樣本數據提高模型的泛化能力是解決問題的關鍵。元學習在解決小樣本數據學習的問題上具有良好的效果,結合元學習與強化學習算法的優勢,可以實現在不同加工任務下零件加工工藝的優化從而達到零件變形的準確控制。
發明內容
本發明的目的是針對變形控制工藝優化的問題,提出了一種基于元強化學習的加工變形控制方法,為不同變形控制工藝數據建立了強化學習基模型,以工件加工過程中的監測數據作為標簽,增加了樣本數據的數量,而且可以通過加工仿真環境得到變形控制工藝仿真數據,進一步了增加樣本數據,利用元學習的小樣本學習方法,通過與工件加工環境交互迭代產生的數據訓練基模型從而得到一個元模型,通過新加工任務的監測數據作為樣本數據,通過該少量樣本數據微調元模型使其適應新任務的加工,提高了模型的泛化能力及變形控制效果。
本發明的技術方案是:
一種基于元強化學習的加工變形控制方法,其特征在于:將至少包含一個零件的變形控制工藝數據作為源數據,將源數據進行分組,并將不同分組的源數據中每個零件的加工變形控制工藝優化作為一個任務,為每個任務分別建立強化學習模型優化加工工藝;基于元學習方法,將建立的強化學習模型作為基模型,通過源數據協同訓練基模型和元模型;當面臨新的加工任務時,通過新任務的少量樣本數據微調元模型得到適應新任務的加工變形控制工藝優化的強化學習模型。
所述的強化學習模型中,將工件加工分為若干加工步驟,以工件的加工狀態為狀態,以下一個加工步驟的工藝選擇作為動作,以下一加工狀態和后續的加工狀態作為設計獎勵函數的依據。
述的加工狀態為工件的幾何狀態、變形力監測量和變形值監測量中的一種或任意組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110337890.5/2.html,轉載請聲明來源鉆瓜專利網。





