[發(fā)明專利]基于深度強化學習對銀行風險定價的優(yōu)化方法和裝置在審
| 申請?zhí)枺?/td> | 202011486443.8 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112488826A | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設計)人: | 段行健;田春明;曹然 | 申請(專利權)人: | 北京逸風金科軟件有限公司 |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02;G06Q10/06;G06N3/08 |
| 代理公司: | 北京匯捷知識產(chǎn)權代理事務所(普通合伙) 11531 | 代理人: | 于鵬 |
| 地址: | 100083 北京市西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 銀行 風險 定價 優(yōu)化 方法 裝置 | ||
本公開提供了基于深度強化學習對銀行風險定價的優(yōu)化方法,對動作值函數(shù)網(wǎng)絡參數(shù)和策略網(wǎng)絡參數(shù)進行初始化;通過現(xiàn)有初始化的網(wǎng)絡與銀行模擬環(huán)境進行交互,完成初始化經(jīng)驗回放;通過均勻分布在經(jīng)驗回放池中采樣,獲取訓練樣本;通過動作值函數(shù)網(wǎng)絡和策略網(wǎng)絡的損失函數(shù)對當前網(wǎng)絡的參數(shù)進行更新;經(jīng)過多輪訓練,通過預設的更新方式,將當前網(wǎng)絡的參數(shù)復制到目標網(wǎng)絡中以完成對銀行風險定價的優(yōu)化操作。該方法能夠用沙盤模擬平臺的仿真銀行模擬環(huán)境,基于深度強化學習算法進行模型訓練,得到可應用于真實銀行經(jīng)營和場景的模型,并推測出系統(tǒng)性風險約束下銀行最優(yōu)的風險定價。本公開還涉及基于深度強化學習對銀行風險定價的優(yōu)化裝置。
技術領域
本公開涉及人工智能技術領域,具體而言,涉及基于深度強化學習對銀行風險定價的優(yōu)化方法和裝置。
背景技術
當前我國商業(yè)銀行在金融科技上的運用還主要集中在自然語言處理、客戶畫像、機器人流程自動化、云計算、區(qū)塊鏈等領域。而在銀行的經(jīng)營管理策略制定和前瞻性場景分析中有較大的缺失。不同于美國和歐洲,由于我國商業(yè)銀行沒有“壓力測試”的相關硬性規(guī)定,因此在以大數(shù)據(jù)模型為基礎的經(jīng)營模擬體系建設中普遍落后于國外銀行。而由于缺少自主的經(jīng)營模擬仿真體系,國內(nèi)商業(yè)銀行也無法有效的將更為前沿的深度強化學習技術運用到管理策略優(yōu)化之中。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術中的技術問題,本公開實施例提供了基于深度強化學習對銀行風險定價的優(yōu)化方法和裝置,能夠用沙盤模擬平臺的仿真銀行模擬環(huán)境,基于深度強化學習算法進行模型訓練,得到可應用于真實銀行經(jīng)營和場景的模型,并推測出系統(tǒng)性風險約束下銀行最優(yōu)的風險定價。
第一方面,本公開實施例提供了基于深度強化學習對銀行風險定價的優(yōu)化方法,所述方法包括:對動作值函數(shù)網(wǎng)絡參數(shù)和策略網(wǎng)絡參數(shù)進行初始化;通過現(xiàn)有初始化的網(wǎng)絡與銀行模擬環(huán)境進行交互,完成初始化經(jīng)驗回放;通過均勻分布在經(jīng)驗回放池中采樣,獲取訓練樣本;通過動作值函數(shù)網(wǎng)絡和策略網(wǎng)絡的損失函數(shù)對當前網(wǎng)絡的參數(shù)進行更新;經(jīng)過多輪訓練,通過預設的更新方式,將當前網(wǎng)絡的參數(shù)復制到目標網(wǎng)絡中以完成對銀行風險定價的優(yōu)化操作。
在其中一個實施例中,還包括:當模型輸出的銀行凈資產(chǎn)收益率數(shù)值落入預設范圍內(nèi)時,停止模型訓練。
在其中一個實施例中,所述對動作值函數(shù)網(wǎng)絡參數(shù)和策略網(wǎng)絡參數(shù)進行初始化包括:對智能體的單輪策略,銀行模擬環(huán)境狀態(tài)以及單輪回報進行隨機初始化。
在其中一個實施例中,所述通過現(xiàn)有初始化的網(wǎng)絡與銀行模擬環(huán)境進行交互,完成初始化經(jīng)驗回放包括:初始化銀行模擬環(huán)境,得到初始狀態(tài);根據(jù)預設公式進行決策輸出操作;與銀行模擬環(huán)境進行交互獲取當輪回報和下一輪的銀行模擬環(huán)境狀態(tài)信息;將四元組數(shù)據(jù)緩存到經(jīng)驗回放池中。
在其中一個實施例中,還包括:當經(jīng)驗回放池被存滿,則利用先進先出的原則進行清理。
在其中一個實施例中,所述預設公式為:a_t=μ(a_t│s_t,θ^μ)+N,其中,N為正態(tài)分布的隨機噪聲,其中,a_t代表動作;s_t代表環(huán)境;μ代表神經(jīng)網(wǎng)絡的參數(shù);θ代表μ的參數(shù)。
在其中一個實施例中,還包括:通過一個神經(jīng)網(wǎng)絡來表征所述動作值函數(shù),所述動作值函數(shù)表征在本輪狀態(tài)下,采取預設對策后,在之后所有輪決策中獲取累積回報的期望。
第二方面,本公開實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)上述的方法的步驟。
第三方面,本公開實施例提供了一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京逸風金科軟件有限公司,未經(jīng)北京逸風金科軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011486443.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種應用于莓茶工夫茶的沖泡裝置
- 下一篇:一種節(jié)能型空氣洗碗機
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q40-00 金融;保險;稅務策略;公司或所得稅的處理
G06Q40-02 .銀行業(yè),例如,利息計算、信貸審批、抵押、家庭銀行或網(wǎng)上銀行
G06Q40-04 .交易,例如,股票、商品、金融衍生工具或貨幣兌換
G06Q40-06 .投資,例如,金融工具、資產(chǎn)組合管理或者基金管理
G06Q40-08 .保險,例如,風險分析或養(yǎng)老金





