[發(fā)明專利]基于DDPG深度強(qiáng)化學(xué)習(xí)算法的投資組合管理方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110235134.1 | 申請(qǐng)日: | 2021-03-03 |
| 公開(kāi)(公告)號(hào): | CN112950373A | 公開(kāi)(公告)日: | 2021-06-11 |
| 發(fā)明(設(shè)計(jì))人: | 蘇炯龍;張恒銘;蔣正雍 | 申請(qǐng)(專利權(quán))人: | 西交利物浦大學(xué) |
| 主分類號(hào): | G06Q40/04 | 分類號(hào): | G06Q40/04;G06Q40/06;G06N3/04;G06N3/08;G06Q10/04 |
| 代理公司: | 南京艾普利德知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 32297 | 代理人: | 陸明耀 |
| 地址: | 215121 江蘇省蘇州市*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 ddpg 深度 強(qiáng)化 學(xué)習(xí) 算法 投資 組合 管理 方法 | ||
本發(fā)明揭示了一種基于DDPG深度強(qiáng)化學(xué)習(xí)算法的投資組合管理方法,利用兩個(gè)全連接神經(jīng)網(wǎng)絡(luò)和兩個(gè)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)構(gòu)建深度確定性策略梯度(DDPG)強(qiáng)化學(xué)習(xí)算法,以實(shí)現(xiàn)下一個(gè)交易周期的收益率最高,用訓(xùn)練完的策略函數(shù)獲取下一個(gè)交易周期資產(chǎn)分配權(quán)重,并通過(guò)買入與賣出來(lái)調(diào)整不同資產(chǎn)所占總資產(chǎn)的比例,以實(shí)現(xiàn)最優(yōu)的策略。本發(fā)明通過(guò)構(gòu)建新型連續(xù)狀態(tài)空間,使神經(jīng)網(wǎng)絡(luò)能夠接收更多的有效信息,并運(yùn)用DDPG強(qiáng)化學(xué)習(xí)算法框架,有效地解決了大規(guī)模狀態(tài)空間所導(dǎo)致的參數(shù)過(guò)多等問(wèn)題,同時(shí)利用全連接神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的交互提高了預(yù)測(cè)精度,盡可能地找出每一次調(diào)倉(cāng)周期的最優(yōu)資產(chǎn)分配權(quán)重。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)領(lǐng)域,尤其是機(jī)器學(xué)習(xí)中的基于DDPG深度強(qiáng)化學(xué)習(xí)算法的投資組合管理方法。
背景技術(shù)
隨著人工智能技術(shù)的發(fā)展,強(qiáng)化學(xué)習(xí)算法已經(jīng)被應(yīng)用于金融領(lǐng)域。目前,通過(guò)搭建合適的交互環(huán)境,基于離散型狀態(tài)與行為空間的強(qiáng)化學(xué)習(xí)模型已經(jīng)被初步地應(yīng)用于資產(chǎn)管理。
但是由于資產(chǎn)管理的實(shí)際操作中動(dòng)作空間與狀態(tài)空間是連續(xù)的,而非離散的,基于離散型狀態(tài)與行為空間的強(qiáng)化學(xué)習(xí)模型無(wú)法對(duì)其充分探索,因此其收益狀況并不出色。在資產(chǎn)管理的離散型強(qiáng)化學(xué)習(xí)模型中,動(dòng)作被定義為每一交易周期初所確定的資產(chǎn)分配權(quán)重,在此定義下,再規(guī)定最小權(quán)重單位便可得到離散化的動(dòng)作空間。然而,如果最小權(quán)重單位太小或者資產(chǎn)數(shù)量太多,就會(huì)導(dǎo)致資產(chǎn)權(quán)重向量(動(dòng)作)數(shù)量過(guò)多。這樣一來(lái),不僅對(duì)于動(dòng)作空間的探索效率很低,而且神經(jīng)網(wǎng)絡(luò)的訓(xùn)練也會(huì)變得非常困難。
因此,如果使用離散型模型進(jìn)行資產(chǎn)管理,通常需要限制資產(chǎn)個(gè)數(shù),并且忽略手續(xù)費(fèi),以此來(lái)減少權(quán)重向量的個(gè)數(shù)。這嚴(yán)重影響了該模型的應(yīng)用價(jià)值和泛化能力。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決現(xiàn)有技術(shù)中存在的上述問(wèn)題,提供一種適于資產(chǎn)個(gè)數(shù)較多且效率較高的基于DDPG深度強(qiáng)化學(xué)習(xí)算法的投資組合管理方法。
本發(fā)明的目的通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
一種基于DDPG深度強(qiáng)化學(xué)習(xí)算法的投資組合管理方法,包括如下步驟:
S1,構(gòu)建股票交易場(chǎng)景的多層式DDPG模型;
所述多層式DDPG模型包括兩個(gè)全連接神經(jīng)網(wǎng)絡(luò)以及兩個(gè)LSTM神經(jīng)網(wǎng)絡(luò),兩個(gè)全連接神經(jīng)網(wǎng)絡(luò)分別為Actor網(wǎng)絡(luò)和Target-Actor網(wǎng)絡(luò),兩個(gè)LSTM神經(jīng)網(wǎng)絡(luò)分別為Critics網(wǎng)絡(luò)和Target-Critics網(wǎng)絡(luò);所述Actor網(wǎng)絡(luò)的輸入為第t個(gè)交易周期狀態(tài),其中t為一個(gè)正自然數(shù),輸出為當(dāng)前交易周期的動(dòng)作,不同標(biāo)的資產(chǎn)在第t+1個(gè)交易周期的權(quán)重;所述Target-Actor網(wǎng)絡(luò)的輸入為預(yù)測(cè)的t+1個(gè)交易周期的狀態(tài),輸出為當(dāng)前交易周期的動(dòng)作,不同標(biāo)的資產(chǎn)在第t+2個(gè)交易周期的權(quán)重;所述Target-Critics網(wǎng)絡(luò)的輸入為所述Target-Actor網(wǎng)絡(luò)的輸出,不同標(biāo)的資產(chǎn)在第t+2個(gè)交易周期的權(quán)重、以及第t+1個(gè)交易周期的狀態(tài),輸出為一個(gè)評(píng)分;所述Critics網(wǎng)絡(luò)的輸入為第t個(gè)交易周期的狀態(tài)、以及該交易周期的動(dòng)作不同標(biāo)的資產(chǎn)在第t+1個(gè)交易周期的權(quán)重,輸出為一個(gè)評(píng)分;
S2,訓(xùn)練所述多層式DDPG模型框其參數(shù)最優(yōu)化;
S3,加載訓(xùn)練好的多層式DDPG模型的參數(shù),接收股票的歷史價(jià)格和狀態(tài),通過(guò)所述多層式DDPG模型獲取下一交易周期初的資產(chǎn)分配權(quán)重,并根據(jù)資產(chǎn)分配權(quán)重調(diào)整資產(chǎn)在股票市場(chǎng)中的分配,從而得到最優(yōu)投資策略。
優(yōu)選的,所述S1中,Actor網(wǎng)絡(luò)以及Critics網(wǎng)絡(luò)的輸入為第t個(gè)交易周期的狀態(tài),其通過(guò)如下方法得到:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西交利物浦大學(xué),未經(jīng)西交利物浦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110235134.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門(mén)適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門(mén)適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險(xiǎn);稅務(wù)策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計(jì)算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產(chǎn)組合管理或者基金管理
G06Q40-08 .保險(xiǎn),例如,風(fēng)險(xiǎn)分析或養(yǎng)老金
- 無(wú)人機(jī)通信網(wǎng)絡(luò)移動(dòng)控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于深度確信策略梯度算法的感應(yīng)電機(jī)關(guān)鍵參數(shù)獲取方法
- 基于DDPG-RAM算法的復(fù)雜光照條件下織物缺陷檢測(cè)方法
- 基于DDPG模型的MIMO雷達(dá)正交波形的生成方法
- 一種復(fù)雜山區(qū)鐵路線路智能化生成方法
- 基于DDPG和LSTM的無(wú)地圖機(jī)器人路徑導(dǎo)航方法及系統(tǒng)
- 一種車輛列隊(duì)跟蹤控制方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于DDPG算法和SOC恢復(fù)的儲(chǔ)能系統(tǒng)參與電網(wǎng)一次調(diào)頻的控制方法
- 基于監(jiān)督信號(hào)引導(dǎo)的深度強(qiáng)化學(xué)習(xí)自動(dòng)駕駛汽車控制方法
- 一種面向深度強(qiáng)化學(xué)習(xí)的策略異常檢測(cè)方法和裝置





