[發(fā)明專利]基于DDPG深度強化學習算法的投資組合管理方法在審
| 申請?zhí)枺?/td> | 202110235134.1 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN112950373A | 公開(公告)日: | 2021-06-11 |
| 發(fā)明(設(shè)計)人: | 蘇炯龍;張恒銘;蔣正雍 | 申請(專利權(quán))人: | 西交利物浦大學 |
| 主分類號: | G06Q40/04 | 分類號: | G06Q40/04;G06Q40/06;G06N3/04;G06N3/08;G06Q10/04 |
| 代理公司: | 南京艾普利德知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 32297 | 代理人: | 陸明耀 |
| 地址: | 215121 江蘇省蘇州市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 ddpg 深度 強化 學習 算法 投資 組合 管理 方法 | ||
1.一種基于DDPG深度強化學習算法的投資組合管理方法,其特征在于,包括如下步驟:
S1,構(gòu)建股票交易場景的多層式DDPG模型;
所述多層式DDPG模型包括兩個全連接神經(jīng)網(wǎng)絡(luò)以及兩個LSTM神經(jīng)網(wǎng)絡(luò),兩個全連接神經(jīng)網(wǎng)絡(luò)分別為Actor網(wǎng)絡(luò)和Target-Actor網(wǎng)絡(luò),兩個LSTM神經(jīng)網(wǎng)絡(luò)分別為Critics網(wǎng)絡(luò)和Target-Critics網(wǎng)絡(luò);所述Actor網(wǎng)絡(luò)的輸入為第t個交易周期狀態(tài),其中t為一個正自然數(shù),輸出為當前交易周期的動作,不同標的資產(chǎn)在第t+1個交易周期的權(quán)重;所述Target-Actor網(wǎng)絡(luò)的輸入為預(yù)測的t+1個交易周期的狀態(tài),輸出為當前交易周期的動作,不同標的資產(chǎn)在第t+2個交易周期的權(quán)重;所述Target-Critics網(wǎng)絡(luò)的輸入為所述Target-Actor網(wǎng)絡(luò)的輸出,不同標的資產(chǎn)在第t+2個交易周期的權(quán)重、以及第t+1個交易周期的狀態(tài),輸出為一個評分;所述Critics網(wǎng)絡(luò)的輸入為第t個交易周期的狀態(tài)、以及該交易周期的動作不同標的資產(chǎn)在第t+1個交易周期的權(quán)重,輸出為一個評分;
S2,訓(xùn)練所述多層式DDPG模型使其參數(shù)最優(yōu)化;
S3,加載訓(xùn)練好的多層式DDPG模型的參數(shù),接收股票的歷史價格和狀態(tài),通過所述多層式DDPG模型獲取下一交易周期初的資產(chǎn)分配權(quán)重,并根據(jù)資產(chǎn)分配權(quán)重調(diào)整資產(chǎn)在股票市場中的分配,從而得到最優(yōu)投資策略。
2.根據(jù)權(quán)利要求1所述的基于DDPG深度強化學習算法的投資組合管理方法,其特征在于,所述S1中,Actor網(wǎng)絡(luò)以及Critics網(wǎng)絡(luò)的輸入為第t個交易周期的狀態(tài),其通過如下方法得到:
S11,交易周期以交易日替代,分別提取所要管理股票的前t個交易日的收盤、最高、最低價格,然后針對每一個交易日每一只股票,計算當前交易日的收盤價Pi,前一交易日的收盤價Pi-1,以及當前交易日與前一交易日的收盤價的比值的自然對數(shù)當前交易日兩日RSI指標,當前交易日的總資產(chǎn)Vi,當前交易日每個股票對應(yīng)的持股數(shù),當前交易日的現(xiàn)金ci,將上述所有股票在交易日i的指標組成第i個交易日的狀態(tài)Si,對于前t個交易日中缺省的數(shù)據(jù),直接舍去;
S12,將經(jīng)過S11得到的狀態(tài)組合成一個(t,50)維的狀態(tài)矩陣,為第t個交易日的狀態(tài)張量。
3.根據(jù)權(quán)利要求1所述的基于DDPG深度強化學習算法的投資組合管理方法,其特征在于,所述S2中,每次神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程如下:
S21,提取記憶批次其中Si為第i個交易日的狀態(tài),ai為第i個交易日的行為;
S22,將S2輸入Target-Actor網(wǎng)絡(luò),輸出為預(yù)測的a2;
S23,將S2,a2輸入Target-Critics網(wǎng)絡(luò),輸出為對應(yīng)的行為獎勵函數(shù)Q2;
S24,從S1,S2中提取對應(yīng)的總資產(chǎn)V1 V2,然后計算獎勵R1=V2-V1;
S25,計算期望行為獎勵
S26,將S1a1輸入Critics網(wǎng)絡(luò),獲得預(yù)測獎勵函數(shù)Q1;
S27,利用Huber-Loss以及Q1計算Critics網(wǎng)絡(luò)的損失函數(shù);
S28,利用該損失函數(shù)對Critics神經(jīng)網(wǎng)絡(luò)進行參數(shù)優(yōu)化;
S29,將S1輸入Actor網(wǎng)絡(luò),輸出為預(yù)測的a1;
S30,將S1以及預(yù)測的a1輸入Critics網(wǎng)絡(luò),并將此網(wǎng)絡(luò)的輸出結(jié)果作為Actor網(wǎng)絡(luò)的損失函數(shù),并對Actor網(wǎng)絡(luò)進行參數(shù)優(yōu)化;
S31,對Target-Actor網(wǎng)絡(luò)以及Target-Critics網(wǎng)絡(luò)進行參數(shù)軟更新。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西交利物浦大學,未經(jīng)西交利物浦大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110235134.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險;稅務(wù)策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產(chǎn)組合管理或者基金管理
G06Q40-08 .保險,例如,風險分析或養(yǎng)老金
- 無人機通信網(wǎng)絡(luò)移動控制方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基于深度確信策略梯度算法的感應(yīng)電機關(guān)鍵參數(shù)獲取方法
- 基于DDPG-RAM算法的復(fù)雜光照條件下織物缺陷檢測方法
- 基于DDPG模型的MIMO雷達正交波形的生成方法
- 一種復(fù)雜山區(qū)鐵路線路智能化生成方法
- 基于DDPG和LSTM的無地圖機器人路徑導(dǎo)航方法及系統(tǒng)
- 一種車輛列隊跟蹤控制方法、裝置及計算機可讀存儲介質(zhì)
- 基于DDPG算法和SOC恢復(fù)的儲能系統(tǒng)參與電網(wǎng)一次調(diào)頻的控制方法
- 基于監(jiān)督信號引導(dǎo)的深度強化學習自動駕駛汽車控制方法
- 一種面向深度強化學習的策略異常檢測方法和裝置





