[發明專利]訓練模型的更新方法、系統、智能設備、服務器及存儲介質有效
| 申請號: | 201911343887.3 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111091200B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 梁新樂;劉洋;陳天健;董苗波 | 申請(專利權)人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 王韜 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 模型 更新 方法 系統 智能 設備 服務器 存儲 介質 | ||
本發明公開了一種訓練模型的更新方法、系統、智能體、服務器及存儲介質,涉及金融科技領域,該方法包括步驟:聯邦學習服務器接收運行在實時環境中的各強化學習智能體發送的第一訓練模型,以及接收數據服務器發送的,根據歷史樣本數據訓練得到的第二訓練模型;對所述第一訓練模型和所述第二訓練模型進行聯邦學習,得到聯邦模型;將所述聯邦模型發送給所述數據服務器和各強化學習智能體,以供所述數據服務器和各強化學習智能體根據所述聯邦模型對應更新訓練模型。本發明提高了通過訓練模型得到訓練結果的準確性,即提高了訓練模型對樣本知識的抽取能力,以及提高了訓練模型的穩定性。
技術領域
本發明涉及金融科技(Fintech)的數據處理技術領域,尤其涉及一種訓練模型的更新方法、系統、智能設備、服務器及存儲介質。
背景技術
隨著計算機技術的發展,越來越多的技術應用在金融領域,傳統金融業正在逐步向金融科技(Fintech)轉變,數據處理技術也不例外,但由于金融行業的安全性、實時性要求,也對技術提出的更高的要求。
時下工業界應用強化學習的訓練方式通常為,訓練的強化學習智能設備(Agent)會維持一個固定規模的經驗池(經驗回放),而當該經驗池的規模超過一定大小時,強化學習智能設備會按照一定的規則對之前的記憶進行遺忘,即按照一定的規則刪除之前存儲的數據。該方式存在如下問題:①樣本浪費:一般情況下,實時環境中強化學習智能設備搜集到的數據具備重大的價值,如果按照當前的強化學習訓練方式,會刪除歷史搜集的樣本數據,因此會導致歷史搜集的樣本數據的價值存在巨大浪費;②知識遺忘:由于實時環境的難以預測性質,樣本數據的分布具有較大的不確定性,隨著經驗池中歷史樣本數據的更迭,強化學習智能設備在歷史環境學習到的知識可能會被覆蓋甚至遺忘。
由此可知,現有的強化學習訓練只會采用當前的樣本數據進行強化學習,從而導致訓練所得的模型對樣本的知識抽取能力低下,且訓練所得的模型穩定性差。
發明內容
本發明的主要目的在于提供一種訓練模型的更新方法、系統、智能設備、服務器及存儲介質,旨在解決現有的通過強化學習訓練所得的模型對樣本的知識抽取能力低下,且訓練所得的模型穩定性差的技術問題。
為實現上述目的,本發明提供一種訓練模型的更新方法,所述訓練模型的更新方法包括步驟:
運行在實時環境中的強化學習智能設備獲取預設長度存儲隊列中的實時樣本數據進行強化學習訓練,得到第一訓練模型;
將所述第一訓練模型發送給聯邦學習服務器,以供所述聯邦學習服務器對所述第一訓練模型和數據服務器發送的,根據歷史樣本數據訓練得到的第二訓練模型進行聯邦學習,得到聯邦模型,并返回所述聯邦模型;
當接收到所述聯邦學習服務器返回的聯邦模型后,根據所述聯邦模型更新所述第一訓練模型。
優選地,所述運行在實時環境中的強化學習智能設備獲取預設長度存儲隊列中的實時樣本數據進行強化學習訓練,得到第一訓練模型的步驟之前,還包括:
獲取所述實時環境中的實時樣本數據,并將所述實時樣本數據存儲至預設長度的存儲隊列中。
優選地,所述獲取所述實時環境中的實時樣本數據,并將所述實時樣本數據存儲至預設長度的存儲隊列中的步驟包括:
獲取所述實時環境中的實時樣本數據,檢測預設長度的存儲隊列的剩余存儲空間是否小于存儲所述實時樣本數據所需的數據空間;
若所述剩余存儲空間小于所述數據空間,則在按照預設刪除規則刪除所述存儲隊列中存儲的樣本數據后,將所述實時樣本數據存儲至預設長度的存儲隊列中。
優選地,所述獲取所述實時環境中的實時樣本數據的步驟之后,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳前海微眾銀行股份有限公司,未經深圳前海微眾銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911343887.3/2.html,轉載請聲明來源鉆瓜專利網。





