[發明專利]基于Q-learning強化學習的芯片封裝測試生產線性能控制方法有效
| 申請號: | 202010797879.2 | 申請日: | 2020-08-10 |
| 公開(公告)號: | CN111857081B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 李波;馮益銘;錢鑫森 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G05B19/418 | 分類號: | G05B19/418 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 閆樹平 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 learning 強化 學習 芯片 封裝 測試 生產線 性能 控制 方法 | ||
1.基于Q-learning強化學習的芯片封裝測試生產線性能控制方法,包括以下步驟:
步驟1:構建半導體芯片封裝測試串并聯生產線抽象模型;
步驟2:基于步驟1構建的生產線抽象模型,建立半導體芯片封裝測試串并聯生產線性能的預測模型;
步驟3:基于步驟1構建的生產線抽象模型,根據Morris篩選法定性分析與Arena仿真定量分析,得到關鍵變動性因素對生產線性能的影響機制;
步驟4:基于步驟2建立的預測模型和步驟3所得關鍵變動性分析,建立基于Q-learning強化學習算法的性能控制模型,以生產線效益指標最優為性能控制目標進行迭代求解,得到全局的最優性能控制策略;
所述步驟1具體為:以半導體生產制造產線后道工序,即芯片封裝測試生產線作為研究對象,假設工站間存在有限緩沖區,排隊規則為先來先服務,將其抽象為包含重入的多工站串并聯排隊生產線模型;
所述步驟2具體為:
步驟2.1:變動性計算:計算到達變動性ca和加工時間變動性ce;
步驟2.2:確定性能預測基本指標;
由工件在隊列處的平均加工時間CTq和有效加工時間te得到駐留于工站的平均時間CT,即生產周期;進一步計算得到工站處平均在制品水平WIP,將工件生產速率TH、生產周期CT、在制品水平WIP作為生產線性能預測基本指標;
CT=CTq+te
WIP=CT×TH
步驟2.3:建立生產線性能預測模型;
步驟2.3.1:計算產品j在工站i的排隊時間:
其中caij、ceij分別為產品j在工站i的到達變動性和加工時間變動性,uij為工站i的利用率,mij為工站i并聯設備數量,teij為產品j在工站i的有效加工時間;
步驟2.3.2:計算工件生產速率TH;
設工站i中有mij臺并聯設備,b為工站i前緩沖區容量大小,k為工站i正在加工工件數,bm1;若有0≤k≤b,工站i前無等待的工件j加工時的概率p0為,其中0<j<r,r表示生產線中一共加工的產品數量:
工件j在緩存區容量大小為b的阻塞概率為:
設qhj為工件j在工站h上的不良品率,Qij為工站i監測到的不良品率,其取值范圍為0<h<i≤s,其中s表示該串并聯生產線中工站數量,則在工站i上檢測并移除的工件j的不良品概率Qij為:
表示生產線中所有帶有不良品檢測工站編號的集合;
則工件j在工站i的生產速率THij為:
當某工站利用率為最大時,記工站I為產品J的瓶頸工站,生產速率記為rbIJ=max(uij);
步驟2.3.3:計算生產線的生產周期CTj和在制品水平WIPj;
計算工件平均等待成批時間WTBT:
其中ra代表工件到達工站的速率,其中kij表示工站i的產品j加工批量大小,此時則改寫CTqij計算公式:
計算產品j在工站i的生產周期CTj和在制品水平WIPj:
從而得到產品j在整條串并聯生產線的生產周期CTj和在制品水平WIPj:
步驟2.4:對生產線性能預測模型性能進行評估;
步驟2.4.1:計算生產線性能指標F;
以生產線最佳情形、最差情形和實際最差情形下的WIP-CT和WIP-TH曲線作為標桿劃定了性能象限中的優區和劣區,構成生產線的性能評估圖;
將實際性能點的距離除以最佳情形與實際最差情形標桿之間距離的比值作為性能評估指標,記為F:
其中w代表給定實際在制品水平,t代表實際生產周期,T0表示生產線的理論加工時間,此處T0=CT;rb代表生產線的瓶頸速率,此處rb=THij,當且僅當uij=umax;
步驟2.4.2:計算生產線效益指標Bf;
考察生產成本,將生產線性能指標F改寫為效益指標Bf:
Bf=C*F
其中C為成本因子,c1為單位設備成本,c2為單位緩沖區容量成本,c3為其余固定成本,m1和b1分別為當前并聯設備數量和緩沖區容量大小,m0和b0分別為初始并聯設備數量和緩沖區容量大?。?/p>
所述步驟3具體為:
步驟3.1:Morris篩選法靈敏度定性分析;
選取生產線性能預測模型中的隨機參數x,預先設定固定步長C和最大變幅M,以步長C對參數x進行擾動變化,將性能評估指標F的平均變化率作為靈敏度系數S:
其中,Y0為參數x初始值對應的性能評估指標F;Yg、Yg+1為第g次和第g+1次參數xg擾動變化后的性能評估指標F;Pg、Pg+1分別為第g次、第g+1次參數擾動變化后其值相對于初始值的變化率,n為運算次數;
根據靈敏度分級標準,將較靈敏和高靈敏度系數的參數確定為對半導體封裝測試生產線性能影響較大的因素;依據靈敏度系數絕對值靈敏度分級標準有:0.00≤|S|<0.05為不靈敏,0.05≤|S|<0.20為中等靈敏,0.20≤|S|<1.00為較靈敏,|S|≥1.00為高靈敏;
步驟3.2:Arena仿真靈敏度定量分析;
在Arena軟件中建立半導體芯片封裝測試串并聯生產線模型,每臺設備具有獨立的隨機加工時間,失效時間和維修時間;
令生產線上的工件到達速率、工站設備加工速率、平均失效前時間mf、平均修復時間mp分別服從負指數分布和正態分布,加工批量大小k、緩沖區容量大小b和并聯設備數量m均為固定的正整數,且有b>m>1,并設置仿真實驗預熱時間設置、運行總時間和實驗重復次數;
實驗得到生產線總體性能、生產周期CT、生產速率TH和在制品水平WIP關于影響生產線性能的關鍵因素的變化曲線;
所述步驟4具體為:
步驟4.1:以生產線性能預測模型作為強化學習外界環境,生產線變動性的變化為觸發條件,基于事件觸發策略與周期觸發策略相結合的動態控制方法,建立基于強化學習的半導體芯片封裝測試生產線性能控制模型;
步驟4.2:初始化A(s,a),a∈A(s),其中A值是對長期報酬的反映,S為系統狀態集,A(s)為步驟4.2所得關鍵因素的動作策略集;給定參數學習率因子α和折扣因子γ,確定回報函數r;
步驟4.3:給定起始狀態s,并根據ε-貪婪策略在狀態s選擇動作a;改進ε的取值方式,設為函數:其中p為算法當前執行部署步數,M為算法總迭代步數;
步驟4.4:根據e貪婪策略在狀態s選擇動作a,b為a的選擇序號,得到回報r和下一個狀態snexts,anext代表下一個動作,更新Q值:
s=snext,a=anext
步驟4.5:轉向步驟4.4,直到系統趨向穩定狀態,也就是收斂狀態;
步驟4.6:重復執行步驟4.2到步驟4.5,直到學習周期即算法預先設置的步驟4.2到步驟4.5重復執行次數結束則停止迭代;
步驟4.7:輸出最終策略并得到生產線性能的指標優化情況。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010797879.2/1.html,轉載請聲明來源鉆瓜專利網。





