[發(fā)明專利]一種基于強化學(xué)習(xí)的股票交易方法在審
| 申請?zhí)枺?/td> | 202110143628.7 | 申請日: | 2021-02-02 |
| 公開(公告)號: | CN112884576A | 公開(公告)日: | 2021-06-01 |
| 發(fā)明(設(shè)計)人: | 陸洋;丁晨;金基東 | 申請(專利權(quán))人: | 上海卡方信息科技有限公司 |
| 主分類號: | G06Q40/04 | 分類號: | G06Q40/04;G06Q40/06;G06N3/08 |
| 代理公司: | 上海創(chuàng)開專利代理事務(wù)所(普通合伙) 31374 | 代理人: | 汪發(fā)成 |
| 地址: | 200333 上海市普陀*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強化 學(xué)習(xí) 股票交易 方法 | ||
1.一種基于強化學(xué)習(xí)的股票交易方法,其特征在于,包括如下步驟:
S01、交易成本設(shè)定:用戶根據(jù)個人偏好或者歷史投資經(jīng)驗設(shè)定交易成本,如若用戶在此步選擇“跳過”或者不指定具體的交易成本,則系統(tǒng)將自動將交易成本設(shè)置為默認值10bp;
S02、目標(biāo)評價函數(shù)設(shè)定:系統(tǒng)將根據(jù)市場信息和宏觀數(shù)據(jù)識別出的股票市場周期預(yù)測市場下行和上行的概率,在此基礎(chǔ)上自動設(shè)定合理的目標(biāo)評價函數(shù);
S03、訓(xùn)練分類神經(jīng)網(wǎng)絡(luò)N;
S04、訓(xùn)練循環(huán)強化學(xué)習(xí)模型RRL,具體包括:
S041、根據(jù)步驟S03中獲得的股票市場交易場景識別得到的結(jié)果,分別對不同市場環(huán)境下的循環(huán)強化學(xué)習(xí)模型訓(xùn)練過程中的訓(xùn)練樣本點數(shù)目進行設(shè)置;
S042、構(gòu)建循環(huán)強化學(xué)習(xí)樣本集;
S043、從第一訓(xùn)練點開始對循環(huán)強化學(xué)習(xí)模型進行訓(xùn)練,在每項做出的投資決策后實時檢查當(dāng)前對所有股票的持倉,分別獲得用戶在買入、持有、賣出決策下的決策價值Q1、Q2、Q3,決策價值計算以步驟S02中設(shè)定的目標(biāo)評價函數(shù)為準(zhǔn),當(dāng)系統(tǒng)推薦的目標(biāo)評價函數(shù)與用戶設(shè)定的目標(biāo)評價函數(shù)不一致時,優(yōu)先使用用戶設(shè)定的目標(biāo)評價函數(shù),將系統(tǒng)推薦的目標(biāo)評價函數(shù)作為次優(yōu)先評價函數(shù),兩者取加權(quán)平均獲得最終的目標(biāo)評價函數(shù);
S044、采用ε-greedy方式進行投資決策選擇;
S045、執(zhí)行完上一步投資決策后,更新股票持倉明細,更新市場環(huán)境特征矩陣,識別股票市場交易周期,計算并且更新決策價值;
S046、將股票市場交易周期特征,因子矩陣以及決策向量和決策價值存入循環(huán)強化學(xué)習(xí)樣本集;
S047、輸出因子矩陣的權(quán)重矩陣,更新循環(huán)強化學(xué)習(xí)模型RRL參數(shù);
S048、在所有股票市場交易周期場景內(nèi),重復(fù)步驟S042到步驟S047直到達到每個訓(xùn)練場景的最大訓(xùn)練次數(shù),完成循環(huán)強化學(xué)習(xí)模型RRL的訓(xùn)練,保存RRL的訓(xùn)練參數(shù);
S05、動態(tài)止損策略設(shè)定:系統(tǒng)允許用戶實時選擇是否使用動態(tài)止損策略;若用戶選擇動態(tài)止損退出策略,則用戶需要根據(jù)自身需求設(shè)置止損退出的條件和參數(shù),包括期望最大回撤和夏普比率,當(dāng)用戶選擇動態(tài)止損后,系統(tǒng)將在觸發(fā)止損條件時停止交易,并重新訓(xùn)練系統(tǒng);若用戶未選擇動態(tài)止損策略,則系統(tǒng)將繼續(xù)從存儲中提取最新的訓(xùn)練參數(shù)和決策結(jié)果;
S06、自動化交易執(zhí)行階段:系統(tǒng)將根據(jù)實時更新的行情數(shù)據(jù),輸入最新的循環(huán)強化學(xué)習(xí)模型,得到交易指令集合,將對應(yīng)的委托單提交到交易系統(tǒng)中。
2.根據(jù)權(quán)利要求1所述的一種基于強化學(xué)習(xí)的股票交易方法,其特征在于,所述步驟S02中的循環(huán)強化學(xué)習(xí)模型的目標(biāo)評價函數(shù)有三種備選函數(shù),分別是夏普比率、斯特林比率和卡瑪比率;
其中,所述夏普比率作為目標(biāo)函數(shù)可以有效抵御市場下行風(fēng)險,其應(yīng)用于市場長期下行風(fēng)險較大時的場景;
其中,所述斯特林比率在市場平穩(wěn)上行時,評估投資決策的模型收益更高,其應(yīng)用于市場平穩(wěn)上行時的場景;
其中,所述卡瑪比率對損失的大小較為敏感,在交易成本上行且期望最大回撤較大時,使用卡瑪比率能夠幫助系統(tǒng)承受交易成本的影響,其應(yīng)用于當(dāng)交易成本高于15bp時的場景。
3.根據(jù)權(quán)利要求1所述的一種基于強化學(xué)習(xí)的股票交易方法,其特征在于,所述S02步驟具體為用戶可以根據(jù)各自的需求設(shè)置循環(huán)強化學(xué)習(xí)訓(xùn)練的目標(biāo)評價函數(shù),用戶設(shè)置的目標(biāo)評價函數(shù)的優(yōu)先級將高于系統(tǒng)默認的目標(biāo)評價函數(shù),但在交易成本過高時,系統(tǒng)會自動提示修改目標(biāo)評價函數(shù)為卡瑪比率。
4.根據(jù)權(quán)利要求1所述的一種基于強化學(xué)習(xí)的股票交易方法,其特征在于,所述步驟S03具體包括如下步驟:
S031、從數(shù)據(jù)庫中調(diào)取宏觀數(shù)據(jù)、行業(yè)信息以及市場交易數(shù)據(jù),對行業(yè)因子、成交量、委托單量、撤單量、指數(shù)收益率、指數(shù)收益波動率的指標(biāo)進行清洗,通過去極值、標(biāo)準(zhǔn)化處理等操作將歷史股市交易信息處理成市場環(huán)境特征矩陣;所述指數(shù)收益率包括短期、中期以及長期收益率;所述指數(shù)收益波動率包括包括短期、中期以及長期收益率波動率;
S032、根據(jù)回看天數(shù)將股票市場周期識別分為三類:短期、中期和長期,分別回看固定交易天數(shù)的股市交易信息,將處理過的市場環(huán)境特征矩陣輸入分類神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,得出輸出權(quán)重,將訓(xùn)練參數(shù)保存在系統(tǒng)中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海卡方信息科技有限公司,未經(jīng)上海卡方信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110143628.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險;稅務(wù)策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產(chǎn)組合管理或者基金管理
G06Q40-08 .保險,例如,風(fēng)險分析或養(yǎng)老金
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 一種反向預(yù)期股票交易系統(tǒng)
- 一種股票交易管理系統(tǒng)
- 股票業(yè)務(wù)處理方法、裝置以及電子設(shè)備
- 用區(qū)塊鏈來實現(xiàn)股票交易的管理系統(tǒng)及方法
- 一種網(wǎng)絡(luò)化股票賬戶資金動態(tài)委托方式的系統(tǒng)及方法
- 股票交易方法、系統(tǒng)、設(shè)備及計算機可讀存儲介質(zhì)
- 一種多賬戶股票交易的控制方法及裝置
- 股票交易數(shù)據(jù)的預(yù)測方法、裝置、電子設(shè)備及介質(zhì)
- 股票交易委托大單的判定及顯示方法、裝置及存儲介質(zhì)
- 基于動態(tài)閾值的股票交易策略構(gòu)建方法、系統(tǒng)、設(shè)備和介質(zhì)





