[發(fā)明專利]一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺及其實現(xiàn)方法有效

申請?zhí)枺?/td>	202110228505.3	申請日：	2021-03-02
公開（公告）號：	CN112597217B	公開（公告）日：	2021-05-28
發(fā)明（設(shè)計）人：	秦熔均;高聳屹;張興遠;李澤文;徐震;黃圣凱	申請（專利權(quán)）人：	南棲仙策（南京）科技有限公司
主分類號：	G06F16/2458	分類號：	G06F16/2458;G06F16/21
代理公司：	南京樂羽知行專利代理事務(wù)所(普通合伙) 32326	代理人：	李玉平
地址：	210038 江蘇省***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種歷史決策數(shù)據(jù) 驅(qū)動智能平臺及其實現(xiàn) 方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺及其實現(xiàn)方法，智能決策平臺從歷史決策數(shù)據(jù)中使用機器學(xué)習(xí)方法獲得決策策略，首先通過神經(jīng)網(wǎng)絡(luò)構(gòu)建決策任務(wù)相關(guān)的虛擬環(huán)境，然后在得到的虛擬環(huán)境上訓(xùn)練決策模型，避免了和真實環(huán)境進行交互隱含的安全性和代價問題。整個平臺可以自動調(diào)度計算資源完成模型訓(xùn)練，無需人工專家干預(yù)。和已有的技術(shù)相比，該決策平臺實用性更大，安全性更高，可擴展性更強。

技術(shù)領(lǐng)域

本發(fā)明涉及一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺及其實現(xiàn)方法，屬于人工智能技術(shù)領(lǐng)域。

背景技術(shù)

隨著人工智能技術(shù)的發(fā)展，強化學(xué)習(xí)在智能決策領(lǐng)域的應(yīng)用越來越廣泛，已經(jīng)可以解決極其復(fù)雜的問題，如圍棋，控制機器人進行工業(yè)生產(chǎn)，或控制自動駕駛汽車。不幸的是，在現(xiàn)實場景中落地強化學(xué)習(xí)進行智能決策仍是非常困難的。原因是大部分強化學(xué)習(xí)的工作都針對存在環(huán)境用于進行數(shù)據(jù)搜集，在該環(huán)境中，代理與環(huán)境互動并使用其當(dāng)前策略和某些探索策略進行數(shù)據(jù)搜集，以探索決策空間并找到更高回報的決策模型。在環(huán)境中直接收集數(shù)據(jù)帶來了幾個困難：必須收集足夠的數(shù)據(jù)來學(xué)習(xí)每個任務(wù)，這對于像機器人或自動駕駛汽車這樣的系統(tǒng)來說收集數(shù)據(jù)是非常昂貴的；在醫(yī)療，安全等領(lǐng)域，與真實環(huán)境交互收集數(shù)據(jù)的代價是非常巨大的，會有很大的安全隱患。

為了解決這個問題，一部分研究人員提出了通過數(shù)字孿生的方法構(gòu)建虛擬仿真環(huán)境訓(xùn)練決策模型，然后再把決策模型遷移到真實的場景中。但是這種方法有很大的局限性，在規(guī)則簡單的環(huán)境上是可以通過專家抽取規(guī)則構(gòu)建保真度比較高的模型。當(dāng)為復(fù)雜，隨機性比較大的場景構(gòu)建虛擬環(huán)境往往是非常困難的，不同模塊的誤差累計會導(dǎo)致在仿真環(huán)境和真實環(huán)境存在非常大的區(qū)別，從而導(dǎo)致在虛擬環(huán)境上訓(xùn)練出來的模型在真實環(huán)境中表現(xiàn)非常差。而且數(shù)字孿生的方法需要消耗大量的人力物力，構(gòu)建的模型也是固定的，如果真實環(huán)境發(fā)生了改變，這類方法是不能感知的，往往需要專家對其構(gòu)建的模型進行調(diào)整，或重新構(gòu)建環(huán)境。

而在真實場景中，往往有很多已經(jīng)存在的歷史決策數(shù)據(jù)，獲得這些數(shù)據(jù)的代價是非常低且安全的。因此，如果能通過這些歷史數(shù)據(jù)進行學(xué)習(xí)來獲得較好的決策模型將是非常有使用價值的。

發(fā)明內(nèi)容

發(fā)明目的：針對現(xiàn)有技術(shù)中存在的問題與不足，本發(fā)明實現(xiàn)了一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺。該平臺可以從歷史決策數(shù)據(jù)中進行學(xué)習(xí)，首先通過神經(jīng)網(wǎng)絡(luò)構(gòu)建決策任務(wù)相關(guān)的虛擬環(huán)境，然后在得到的虛擬環(huán)境上訓(xùn)練決策模型，避免了和真實環(huán)境進行交互帶來的安全性和代價問題。整個平臺可以自動調(diào)度計算資源完成模型訓(xùn)練，無需人工專家干預(yù)。和已有的技術(shù)相比，該決策平臺實用性更大，安全性更高，可擴展性更強。

技術(shù)方案：一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺，該平臺的技術(shù)特征在于：（1）可以基于歷史數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)方法自動構(gòu)建決策任務(wù)相關(guān)的虛擬環(huán)境，和使用數(shù)據(jù)孿生技術(shù)創(chuàng)建的環(huán)境相比，其構(gòu)建的虛擬環(huán)境具有較強的任務(wù)相關(guān)性，且只需要使用歷史數(shù)據(jù)即可完成構(gòu)建，不需要費時費力的注入專家知識。（2）給定決策目標，決策平臺可以利用產(chǎn)生的虛擬環(huán)境和歷史數(shù)據(jù)訓(xùn)練出最優(yōu)決策策略。該策略即可以輔助人類專家進行決策，也可以代替人類專家完成更好的決策。所述的決策平臺在構(gòu)建虛擬環(huán)境和提供了默認的通用學(xué)習(xí)方法，一般情況下無需修改。所述平臺允許使用人員根據(jù)個人經(jīng)驗和知識構(gòu)建不同的虛擬環(huán)境和決策任務(wù)，最終通過歷史數(shù)據(jù)進行訓(xùn)練以獲得最優(yōu)環(huán)境模型和決策模型。

一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺，包括數(shù)據(jù)輸入模塊，決策任務(wù)自動構(gòu)建模塊，虛擬環(huán)境訓(xùn)練模塊，決策策略訓(xùn)練模塊，分布式神經(jīng)網(wǎng)絡(luò)調(diào)度模塊，以及超參選優(yōu)模塊。

將存放歷史決策數(shù)據(jù)的文件上傳到數(shù)據(jù)輸入模塊，數(shù)據(jù)輸入模塊對文件中的歷史決策數(shù)據(jù)進行數(shù)據(jù)預(yù)處理，包括填補缺失值以及刪除噪聲數(shù)據(jù)和重復(fù)數(shù)據(jù)。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南棲仙策（南京）科技有限公司，未經(jīng)南棲仙策（南京）科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110228505.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種穩(wěn)定性高的硬臂起重機
下一篇：光學(xué)鏡頭及成像設(shè)備

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】