[發明專利]行動優化裝置、方法以及程序在審
| 申請號: | 201980043774.3 | 申請日: | 2019-07-16 |
| 公開(公告)號: | CN112400179A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 松浦伸彥;兒玉翠;秦崇洋;中村元紀;社家一平 | 申請(專利權)人: | 日本電信電話株式會社 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;F24F11/63 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金蘭 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行動 優化 裝置 方法 以及 程序 | ||
1.一種行動優化裝置,具備處理器以及與該處理器連接的存儲器,所述行動優化裝置優化用于對對象空間內的環境進行控制的行動,
所述處理器構成為:
取得與所述對象空間內的環境的狀態相關的環境數據,
對于所取得的所述環境數據依照預先設定的算法進行時空間插補,
基于被進行了所述時空間插補后的環境數據,使環境再現模型進行學習以在輸入了環境的狀態和用于控制該環境的行動時輸出所述行動后的環境的狀態的正確值,使學習完畢的環境再現模型存儲至所述存儲器,
使搜索模型進行學習以在輸入了從所述環境再現模型輸出的環境的狀態時輸出接著應該采取的行動,使學習完畢的搜索模型存儲至所述存儲器,
讀出所述存儲器中存儲的所述學習完畢的環境再現模型,使用所讀出的所述學習完畢的環境再現模型,預測與第一環境的狀態以及第一行動對應的第二環境的狀態,
讀出所述存儲器中存儲的所述學習完畢的搜索模型,使用所讀出的所述學習完畢的搜索模型,搜索對于所述第二環境的狀態應該采取的第二行動,
輸出所述搜索的結果。
2.如權利要求1所述的行動優化裝置,
所述處理器還構成為:
基于搜索出的所述第二行動,使用所述學習完畢的環境再現模型,進一步預測與所述第二環境的狀態和所述第二行動對應的第三環境的狀態,
使用所述學習完畢的搜索模型,進一步搜索對于所述第三環境的狀態應該采取的第三行動。
3.如權利要求1所述的行動優化裝置,
所述處理器還構成為:
在使用所述學習完畢的環境再現模型來預測與第一環境的狀態以及第一行動對應的第二環境的狀態時,基于預先設定的報酬函數,進一步輸出與所述第二環境的狀態對應的報酬,
在使用所述學習完畢的搜索模型來搜索對于所述第二環境的狀態應該采取的第二行動時,基于所述報酬來更新所述搜索模型的學習結果。
4.如權利要求1所述的行動優化裝置,
所述處理器還構成為:
基于所述環境數據,使用預先設定的時間序列分析方法進行未來預測,生成環境預測數據,
對于所述搜索模型使用所述環境預測數據來搜索應該采取的行動。
5.如權利要求1所述的行動優化裝置,
所述處理器還構成為:
對于所述環境數據進行基于隨機數的數據擴展,
使用被施以所述數據擴展后的環境數據,使所述環境再現模型進行學習。
6.如權利要求1所述的行動優化裝置,
所述處理器還構成為:
取得用于指定所述環境再現模型的學習、所述搜索模型的學習、所述第二環境的狀態的預測以及所述第二行動的搜索之中的至少一個的處理中應該使用的信息的方針數據。
7.如權利要求1所述的行動優化裝置,
所述處理器還構成為:
搜索對于控制對象組的以組為單位的行動、或者用于實現特定的功能的對于1個或多個控制對象的一系列行動,來作為所述第二行動,所述控制對象組是基于特定的基準預先對多個控制對象進行分組而得到的組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日本電信電話株式會社,未經日本電信電話株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980043774.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:脂肪蓄積抑制用組合物
- 下一篇:用于管理電子設備的解鎖的方法和裝置





