[發明專利]一種基于強化學習的煙葉容重測量方法有效

申請號：	202011149673.5	申請日：	2020-10-23
公開（公告）號：	CN112362522B	公開（公告）日：	2022-08-02
發明（設計）人：	林森;馮海;菅威;徐榮華;章曉白;孫科雷	申請（專利權）人：	浙江中煙工業有限責任公司
主分類號：	G01N5/00	分類號：	G01N5/00;G01N25/20;G06N3/08
代理公司：	杭州天勤知識產權代理有限公司 33224	代理人：	曹兆霞
地址：	310008 浙***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于強化學習煙葉容重測量方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于強化學習的煙葉容重測量方法，其特征在于，包括以下步驟：

構建基于強化學習的煙葉容重測量模型，具體過程為：以包含煙葉流量、加水量、筒溫、熱風溫度、蒸汽質量流量、出口水分和溫度的回潮滾筒的相關參數作為狀態數據，采用強化學習算法中的動作網絡依據狀態數據推算得到煙葉容重測量值，并根據煙葉容重測量值與煙葉容重實際值計算動作獎勵值，并依據該動作獎勵值構建TD誤差，依據TD誤差來構建動作網絡和強化學習算法中的評價網絡的損失函數，依據損失函數優化更新動作網絡和評價網絡參數，優化結束后，參數確定的動作網絡作為煙葉容重測量模型；

應用時，實時采集回潮滾筒的相關參數，煙葉容重測量模型依據回潮滾筒的相關參數實時推算輸出煙絲容重測量值；

動作獎勵值r(t)表示為：

其中，M_act為煙葉容重實際值，M_tar為煙葉容重測算值，煙葉容重實際值是根據柜式喂料機后端的皮帶秤調節速率折算得到，在皮帶秤通過煙葉體積保持穩定的情況下，皮帶秤的調節速率是跟容重成線性的正比關系即：

M_act＝δu

其中，δ為比例系數，u為皮帶秤調節速率；

其中，構建的TD誤差δ_TD(t)表示為：

δ_TD(t)＝r(t)+γv_π(t+1)-v_π(t)

其中，r(t)表示動作獎勵值，v_π(t)表示評價網絡依據t時刻狀態數據采取動作策略π得到的回報價值，v_π(t+1)表示評價網絡依據t+1時刻狀態數據采取動作策略π得到的回報價值，γ為修正因子，表示未來回報價值相對于當前回報價值的重要程度；

動作網絡的優化目標是優化網絡參數使輸出回報值高的煙葉容重，損失函數L_π為：

L_π＝-δ_TD(t)logπ_θ(s,a)

其中，δ_TD(t)表示t時刻的TD誤差，π_θ(s,a)表示參數為θ的動作網絡依據環境狀態數據s產生動作a的動作策略；

依據損失函數L_π更新動作網絡參數的過程為：