[發(fā)明專利]一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺及其實現(xiàn)方法有效
| 申請?zhí)枺?/td> | 202110228505.3 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN112597217B | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計)人: | 秦熔均;高聳屹;張興遠;李澤文;徐震;黃圣凱 | 申請(專利權(quán))人: | 南棲仙策(南京)科技有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/21 |
| 代理公司: | 南京樂羽知行專利代理事務(wù)所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210038 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 歷史 決策 數(shù)據(jù) 驅(qū)動 智能 平臺 及其 實現(xiàn) 方法 | ||
本發(fā)明公開一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺及其實現(xiàn)方法,智能決策平臺從歷史決策數(shù)據(jù)中使用機器學(xué)習(xí)方法獲得決策策略,首先通過神經(jīng)網(wǎng)絡(luò)構(gòu)建決策任務(wù)相關(guān)的虛擬環(huán)境,然后在得到的虛擬環(huán)境上訓(xùn)練決策模型,避免了和真實環(huán)境進行交互隱含的安全性和代價問題。整個平臺可以自動調(diào)度計算資源完成模型訓(xùn)練,無需人工專家干預(yù)。和已有的技術(shù)相比,該決策平臺實用性更大,安全性更高,可擴展性更強。
技術(shù)領(lǐng)域
本發(fā)明涉及一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺及其實現(xiàn)方法,屬于人工智能技術(shù)領(lǐng)域。
背景技術(shù)
隨著人工智能技術(shù)的發(fā)展,強化學(xué)習(xí)在智能決策領(lǐng)域的應(yīng)用越來越廣泛,已經(jīng)可以解決極其復(fù)雜的問題,如圍棋,控制機器人進行工業(yè)生產(chǎn),或控制自動駕駛汽車。不幸的是,在現(xiàn)實場景中落地強化學(xué)習(xí)進行智能決策仍是非常困難的。原因是大部分強化學(xué)習(xí)的工作都針對存在環(huán)境用于進行數(shù)據(jù)搜集,在該環(huán)境中,代理與環(huán)境互動并使用其當(dāng)前策略和某些探索策略進行數(shù)據(jù)搜集,以探索決策空間并找到更高回報的決策模型。在環(huán)境中直接收集數(shù)據(jù)帶來了幾個困難:必須收集足夠的數(shù)據(jù)來學(xué)習(xí)每個任務(wù),這對于像機器人或自動駕駛汽車這樣的系統(tǒng)來說收集數(shù)據(jù)是非常昂貴的;在醫(yī)療,安全等領(lǐng)域,與真實環(huán)境交互收集數(shù)據(jù)的代價是非常巨大的,會有很大的安全隱患。
為了解決這個問題,一部分研究人員提出了通過數(shù)字孿生的方法構(gòu)建虛擬仿真環(huán)境訓(xùn)練決策模型,然后再把決策模型遷移到真實的場景中。但是這種方法有很大的局限性,在規(guī)則簡單的環(huán)境上是可以通過專家抽取規(guī)則構(gòu)建保真度比較高的模型。當(dāng)為復(fù)雜,隨機性比較大的場景構(gòu)建虛擬環(huán)境往往是非常困難的,不同模塊的誤差累計會導(dǎo)致在仿真環(huán)境和真實環(huán)境存在非常大的區(qū)別,從而導(dǎo)致在虛擬環(huán)境上訓(xùn)練出來的模型在真實環(huán)境中表現(xiàn)非常差。而且數(shù)字孿生的方法需要消耗大量的人力物力,構(gòu)建的模型也是固定的,如果真實環(huán)境發(fā)生了改變,這類方法是不能感知的,往往需要專家對其構(gòu)建的模型進行調(diào)整,或重新構(gòu)建環(huán)境。
而在真實場景中,往往有很多已經(jīng)存在的歷史決策數(shù)據(jù),獲得這些數(shù)據(jù)的代價是非常低且安全的。因此,如果能通過這些歷史數(shù)據(jù)進行學(xué)習(xí)來獲得較好的決策模型將是非常有使用價值的。
發(fā)明內(nèi)容
發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題與不足,本發(fā)明實現(xiàn)了一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺。該平臺可以從歷史決策數(shù)據(jù)中進行學(xué)習(xí),首先通過神經(jīng)網(wǎng)絡(luò)構(gòu)建決策任務(wù)相關(guān)的虛擬環(huán)境,然后在得到的虛擬環(huán)境上訓(xùn)練決策模型,避免了和真實環(huán)境進行交互帶來的安全性和代價問題。整個平臺可以自動調(diào)度計算資源完成模型訓(xùn)練,無需人工專家干預(yù)。和已有的技術(shù)相比,該決策平臺實用性更大,安全性更高,可擴展性更強。
技術(shù)方案:一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺,該平臺的技術(shù)特征在于:(1)可以基于歷史數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)方法自動構(gòu)建決策任務(wù)相關(guān)的虛擬環(huán)境,和使用數(shù)據(jù)孿生技術(shù)創(chuàng)建的環(huán)境相比,其構(gòu)建的虛擬環(huán)境具有較強的任務(wù)相關(guān)性,且只需要使用歷史數(shù)據(jù)即可完成構(gòu)建,不需要費時費力的注入專家知識。(2)給定決策目標,決策平臺可以利用產(chǎn)生的虛擬環(huán)境和歷史數(shù)據(jù)訓(xùn)練出最優(yōu)決策策略。該策略即可以輔助人類專家進行決策,也可以代替人類專家完成更好的決策。所述的決策平臺在構(gòu)建虛擬環(huán)境和提供了默認的通用學(xué)習(xí)方法,一般情況下無需修改。所述平臺允許使用人員根據(jù)個人經(jīng)驗和知識構(gòu)建不同的虛擬環(huán)境和決策任務(wù),最終通過歷史數(shù)據(jù)進行訓(xùn)練以獲得最優(yōu)環(huán)境模型和決策模型。
一種歷史決策數(shù)據(jù)驅(qū)動的智能決策平臺,包括數(shù)據(jù)輸入模塊,決策任務(wù)自動構(gòu)建模塊,虛擬環(huán)境訓(xùn)練模塊,決策策略訓(xùn)練模塊,分布式神經(jīng)網(wǎng)絡(luò)調(diào)度模塊,以及超參選優(yōu)模塊。
將存放歷史決策數(shù)據(jù)的文件上傳到數(shù)據(jù)輸入模塊,數(shù)據(jù)輸入模塊對文件中的歷史決策數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,包括填補缺失值以及刪除噪聲數(shù)據(jù)和重復(fù)數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南棲仙策(南京)科技有限公司,未經(jīng)南棲仙策(南京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110228505.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 決策協(xié)調(diào)方法、執(zhí)行裝置和決策協(xié)調(diào)器
- 一種基于循環(huán)更新模式的決策樹構(gòu)建方法
- 一種基于群決策的建筑項目決策系統(tǒng)及決策方法
- 一種基于反射弧的智慧大腦決策系統(tǒng)及決策方法
- 一種三維消防指揮決策輔助系統(tǒng)
- 一種決策方法、系統(tǒng)以及電子設(shè)備
- 基于決策引擎和模型平臺的業(yè)務(wù)決策邏輯更新方法
- 一種雙層優(yōu)先級決策系統(tǒng)
- 一種應(yīng)用程序的業(yè)務(wù)執(zhí)行方法、裝置及電子設(shè)備
- 基于區(qū)塊鏈的決策方法及裝置和電子設(shè)備
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





