[發明專利]基于深度神經網絡的電子產品異步自適應價值評估方法在審
| 申請號: | 201911117324.2 | 申請日: | 2019-11-14 |
| 公開(公告)號: | CN110852808A | 公開(公告)日: | 2020-02-28 |
| 發明(設計)人: | 杜永萍;王陸霖;韓紅桂;甄琪;鄶曉丹;吳玉鋒 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 神經網絡 電子產品 異步 自適應 價值 評估 方法 | ||
1.基于深度神經網絡的電子產品異步自適應價值評估方法,其特征在于:包括估計產品本身價值的估價模塊和為應對市場變化進行定價調整的自適應調價模塊,自適應調價模塊使用雙深度Q網絡,其模型結構由兩個結構相同、參數不同的深度Q學習網絡構成,即行為網絡和目標網絡;估價模塊根據影響電子產品價格的內部屬性得到t時刻的產品基本估價由估價模塊輸出的估計價格經過自適應調價模塊選擇的調價動作at調整之后得到最終價格具體如下:
其中,調價動作at由行為網絡得到,具體為:行為網絡根據t時刻接收輸入的數據st,得到每個調價動作的Q值,調價動作at即為最優的Q值對應的調價動作,即:
at=argmaxaQ(st,a;θt)
其中,
數據st包括根據影響電子產品價格的內部屬性、產品估價模塊的預測價格、當前時間以及產品一周內回收量和銷量,
θt為行為網絡t時刻的參數,且在每次進行調價動作之后都會進行更新,雙深度Q網絡使用了經驗回溯機制并使用目標網絡參與行為網絡參數的更新,所述的經驗回溯機制指利用t時刻之前的信息調整第t+1時刻的行為網絡參數θt+1,進而調整第t+1時刻的產品基本估價
Q(st,a;θt)為行為網絡輸入數據st通過參數θt計算出來的各個調價行為a的Q值,argmaxa為求最優Q值Q(st,a;θt)對應的調價行為a的操作。
2.根據權利要求1所述的基于深度神經網絡的電子產品異步自適應價值評估方法,其特征在于:
所述的行為網絡中的參數θt的更新過程如下:
1)將t時刻的輸入信息st,做出的調價動作at,執行動作后獲得的反饋rt+1和t+1時刻獲得的輸入信息st+1組合成一個樣本St={st,at,rt+1,st+1}存儲在回放空間中,其中,
其中,EBp代表正反饋的誤差邊界,EBn代表負反饋的誤差邊界,
Yt表示市場成交價;
所述的回放空間由各時刻樣本St構成,表示為{S1,...,St,...,SN};
2)從回放空間中隨機選取j時刻的樣本Sj=(sj,aj,rj+1,sj+1),將其中的sj+1輸入行為網絡并計算出調價動作aj,t-,具體表示如下:
aj,t-=argmaxaQ(sj+1,a;θt)
3)同時將sj+1輸入目標網絡并得到調價動作aj,t-對應的Q值,具體表示為Q(sj+1,aj,t-;θ-),其中θ-表示此時目標網絡的參數;
4)計算yj,具體如下:
yj=rj+1+γQ(sj+1,aj,t-;θ-)
其中,γ是用來調節網絡學習程度的常量,
5)從回放空間中隨機選取多個時刻的樣本Sj,j≤t,將這些樣本中的sj輸入行為網絡,選擇Adam優化器對行為網絡進行優化,優化后的參數即為第t+1時刻行為網絡的參數θt+1,其中損失函數L的計算公式如下:
L=(yj-Q(sj,aj;θt))2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911117324.2/1.html,轉載請聲明來源鉆瓜專利網。





