[發明專利]一種基于強化學習的煙葉容重測量方法有效
| 申請號: | 202011149673.5 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112362522B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 林森;馮海;菅威;徐榮華;章曉白;孫科雷 | 申請(專利權)人: | 浙江中煙工業有限責任公司 |
| 主分類號: | G01N5/00 | 分類號: | G01N5/00;G01N25/20;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310008 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 煙葉 容重 測量方法 | ||
1.一種基于強化學習的煙葉容重測量方法,其特征在于,包括以下步驟:
構建基于強化學習的煙葉容重測量模型,具體過程為:以包含煙葉流量、加水量、筒溫、熱風溫度、蒸汽質量流量、出口水分和溫度的回潮滾筒的相關參數作為狀態數據,采用強化學習算法中的動作網絡依據狀態數據推算得到煙葉容重測量值,并根據煙葉容重測量值與煙葉容重實際值計算動作獎勵值,并依據該動作獎勵值構建TD誤差,依據TD誤差來構建動作網絡和強化學習算法中的評價網絡的損失函數,依據損失函數優化更新動作網絡和評價網絡參數,優化結束后,參數確定的動作網絡作為煙葉容重測量模型;
應用時,實時采集回潮滾筒的相關參數,煙葉容重測量模型依據回潮滾筒的相關參數實時推算輸出煙絲容重測量值;
動作獎勵值r(t)表示為:
其中,Mact為煙葉容重實際值,Mtar為煙葉容重測算值,煙葉容重實際值是根據柜式喂料機后端的皮帶秤調節速率折算得到,在皮帶秤通過煙葉體積保持穩定的情況下,皮帶秤的調節速率是跟容重成線性的正比關系即:
Mact=δu
其中,δ為比例系數,u為皮帶秤調節速率;
其中,構建的TD誤差δTD(t)表示為:
δTD(t)=r(t)+γvπ(t+1)-vπ(t)
其中,r(t)表示動作獎勵值,vπ(t)表示評價網絡依據t時刻狀態數據采取動作策略π得到的回報價值,vπ(t+1)表示評價網絡依據t+1時刻狀態數據采取動作策略π得到的回報價值,γ為修正因子,表示未來回報價值相對于當前回報價值的重要程度;
動作網絡的優化目標是優化網絡參數使輸出回報值高的煙葉容重,損失函數Lπ為:
Lπ=-δTD(t)logπθ(s,a)
其中,δTD(t)表示t時刻的TD誤差,πθ(s,a)表示參數為θ的動作網絡依據環境狀態數據s產生動作a的動作策略;
依據損失函數Lπ更新動作網絡參數的過程為:
θ(t)=θ(t-1)+α▽Lπ
其中,θ(t)表示t時刻的動作網絡參數,θ(t-1)表示t-1時刻的動作網絡參數,α表示學習率,▽Lπ表示損失函數Lπ的梯度;
評價網絡的損失函數Lv為:
其中,δTD(t)表示t時刻的TD誤差;
依據損失函數Lv更新評價網絡參數的過程為:
w(n)=w(n-1)+βΔLv
其中,β表示學習率,ΔLv表示損失函數Lv的梯度。
2.如權利要求1所述的基于強化學習的煙葉容重測量方法,其特征在于,蒸汽直接噴到回潮滾筒內的煙葉上,采集蒸汽體積流量V、蒸汽溫度T、蒸汽壓力P計算蒸汽密度D和蒸汽質量流量Q:
Q=D*V。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江中煙工業有限責任公司,未經浙江中煙工業有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011149673.5/1.html,轉載請聲明來源鉆瓜專利網。





