[發(fā)明專利]一種可拓展多微波源協(xié)同輸出的智能微波反應(yīng)器系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202110151601.2 | 申請(qǐng)日: | 2021-02-03 |
| 公開(公告)號(hào): | CN112947174B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 楊彪;高皓;成宬;杜婉;劉承;馬紅濤 | 申請(qǐng)(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號(hào): | G05B19/042 | 分類號(hào): | G05B19/042 |
| 代理公司: | 昆明人從眾知識(shí)產(chǎn)權(quán)代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國(guó)省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 拓展 微波 協(xié)同 輸出 智能 反應(yīng)器 系統(tǒng) | ||
1.一種可拓展多微波源協(xié)同輸出的智能微波反應(yīng)器系統(tǒng),其特征在于:包括用于實(shí)現(xiàn)基于強(qiáng)化學(xué)習(xí)的控制策略的PC模塊(1)、用于給磁控管(13)供電的磁控管電源模塊(7)、與各個(gè)磁控管電源連接用于直接精準(zhǔn)調(diào)節(jié)磁控管功率的功率控制模塊(5)、用于溝通功率控制模塊(5)與PC模塊(1)的通信模塊(3)、以及用作參數(shù)反饋的采樣模塊(10);
實(shí)現(xiàn)Q學(xué)習(xí)的步驟如下:
Step1:基礎(chǔ)配置;
Step2:各模塊自檢與初始數(shù)據(jù)的打包廣播,饋入功率,進(jìn)入加熱過程;
Step3:收集采樣數(shù)據(jù)與分發(fā)功率控制數(shù)據(jù);
Step4:根據(jù)不同的CAN應(yīng)用協(xié)議設(shè)置各源數(shù)據(jù)的過濾情況,組成不同額通信拓?fù)浣Y(jié)構(gòu);
Step5:使用免模型的異策略Q-學(xué)習(xí)算法,計(jì)算各源需要的最佳饋入功率;
Step5.1設(shè)置算法參數(shù);α∈[0,1],貪心參數(shù)ε∈[0,1],折扣因子γ∈[0,1];
Step5.2初始化值函數(shù)矩陣Q(S,A);
除最終狀態(tài)Q外,Q(s,a)=0;
Step5.3開始一個(gè)回合,選取當(dāng)前回合的起始狀態(tài)S;
Step5.4從當(dāng)前起始狀態(tài)S的動(dòng)作空間中使用ε-貪心法構(gòu)造一個(gè)隨機(jī)的行動(dòng)策略;
Step5.5執(zhí)行動(dòng)作A,觀察獲得其對(duì)應(yīng)的R和S′;其中S′為執(zhí)行動(dòng)作后的下一個(gè)狀態(tài),R為執(zhí)行動(dòng)作的即時(shí)獎(jiǎng)勵(lì);
Step5.6使用Q(S,A)←Q(S,A)+α[R+γmaxaQ(S′,a)-Q(S,A)],更新Q函數(shù);
Step5.7更新狀態(tài),S←S′;
Step5.8S是否已經(jīng)達(dá)到最終狀態(tài),沒有則轉(zhuǎn)到Step5.4;否則此回合結(jié)束;
Step5.9開始下一回合,轉(zhuǎn)到Step5.3;
Step6:完成一次加熱,保存數(shù)據(jù),本次最優(yōu)策略作為下次加熱初始策略;
所述PC模塊(1)即為在電腦上設(shè)計(jì)的一個(gè)上位機(jī)控制軟件,其中包含窗口化的人機(jī)交互控制界面以及后臺(tái)用于運(yùn)算控制策略的強(qiáng)化學(xué)習(xí)算法;
所述強(qiáng)化學(xué)習(xí)算法采用Q-學(xué)習(xí)算法,用如式(1)所示的離散化指標(biāo)作為狀態(tài)表征:
設(shè)系統(tǒng)中有m組微波源,離散地,將微波源的功率劃分為k個(gè)功率檔,則整個(gè)系統(tǒng)中將會(huì)有種行為,由狀態(tài)和行為來構(gòu)建獎(jiǎng)勵(lì)矩陣R,并在迭代運(yùn)算過程中根據(jù)獎(jiǎng)勵(lì)矩陣更新Q值矩陣,最后由Q值矩陣推斷出一個(gè)最優(yōu)控制策略,并在每一次加熱過程中不斷學(xué)習(xí)并優(yōu)化控制策略;
狀態(tài)確定后就要確定使?fàn)顟B(tài)發(fā)生的動(dòng)作;
設(shè)系統(tǒng)中有m組微波源,離散地將微波源的功率劃分為k個(gè)功率檔,則整個(gè)系統(tǒng)中將會(huì)有種行為;
根據(jù)狀態(tài)和行為構(gòu)建如式(2)所示的獎(jiǎng)勵(lì)矩陣Rxy為:
其中x為表示狀態(tài)的編號(hào),y為表示行為的編號(hào),如r(x,y)就是在狀態(tài)sx執(zhí)行動(dòng)作ay的即時(shí)獎(jiǎng)勵(lì)R;其中數(shù)值,需要按照目標(biāo)要求進(jìn)行設(shè)置與調(diào)整,具體方法為:若狀態(tài)從si到sj,i<j,即狀態(tài)向著更均勻方向轉(zhuǎn)移,則獎(jiǎng)勵(lì)值為正,且i,j之間差值越大,獎(jiǎng)勵(lì)值越大;反之則獎(jiǎng)勵(lì)值為負(fù),越小;然后在隨機(jī)選擇動(dòng)作后,觀察轉(zhuǎn)移到的狀態(tài),即有了起始狀態(tài)si和下一狀態(tài)sj,由此得到r(x,y);如算法Step5.5中所述,在迭代過程中,就由如算法Step5.5來獲取即時(shí)獎(jiǎng)勵(lì)帶入Step5.6運(yùn)算,用來更新Q(S,A);
將Step5.6中不停迭代更新的Q(S,A)構(gòu)構(gòu)建如式(3)所示的Q值矩陣Qxy為:
其中x為表示狀態(tài)的編號(hào),y為表示行為的編號(hào),如Q(x,y)就是在狀態(tài)sx執(zhí)行動(dòng)作ay的Q值;在進(jìn)行多回合循環(huán)迭代后,最后得到一個(gè)Q值矩陣,用這個(gè)矩陣作為指導(dǎo),每一步挑出一個(gè)使Q值最大的步驟,就能輸出一個(gè)最優(yōu)策略。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110151601.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 移動(dòng)通信終端的協(xié)同方法及其界面系統(tǒng)
- 業(yè)務(wù)協(xié)同流程配置、業(yè)務(wù)協(xié)同方法及裝置
- 一種基于健康檔案共享平臺(tái)的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
- 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
- 基于協(xié)同網(wǎng)關(guān)的跨域協(xié)同交互方法
- 一種生產(chǎn)協(xié)同管理方法及系統(tǒng)
- 云邊協(xié)同方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種智能辦公協(xié)同操作方法及系統(tǒng)
- 一種用于無人裝備的時(shí)間協(xié)同航跡規(guī)劃方法
- 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)





