[發明專利]機器學習裝置、伺服控制系統以及機器學習方法有效
| 申請號: | 201810444852.8 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN108880399B | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 筱田翔吾;豬飼聰史 | 申請(專利權)人: | 發那科株式會社 |
| 主分類號: | H02P29/00 | 分類號: | H02P29/00 |
| 代理公司: | 11243 北京銀龍知識產權代理有限公司 | 代理人: | 范勝杰;王立杰<國際申請>=<國際公布> |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為信息 機器學習裝置 控制對象裝置 伺服控制裝置 電動機 伺服控制系統 控制器增益 傳輸函數 機器學習 價值函數 強化學習 輸出單元 控制器 回報 調整控制器 控制器輸出 調整信息 更新單元 取得單元 實際動作 指令 輸出 更新 | ||
1.一種機器學習裝置,對控制具備電動機的控制對象裝置的動作的伺服控制裝置進行強化學習,其特征在于,
該機器學習裝置具備:
行為信息輸出單元,其對上述伺服控制裝置所具備的控制器輸出包括控制器增益的傳輸函數的系數的調整信息的行為信息;
狀態信息取得單元,其從上述伺服控制裝置取得狀態信息,該狀態信息包括在上述控制器根據上述行為信息使上述控制對象裝置進行動作時被輸入到上述控制器的指令與上述控制對象裝置的實際動作之間的偏差、上述電動機的相位以及上述控制器增益的傳輸函數的系數;
回報輸出單元,其根據上述狀態信息中包括的上述偏差來輸出強化學習的回報值;以及
價值函數更新單元,其根據上述回報值、上述狀態信息以及上述行為信息來更新行為價值函數。
2.根據權利要求1所述的機器學習裝置,其特征在于,
上述伺服控制裝置是進行用于修正被輸入到上述控制器的指令的反饋控制的伺服控制裝置,
上述狀態信息取得單元取得被輸入到上述控制器中的指令與上述反饋控制的反饋值之間的差值作為上述偏差。
3.根據權利要求1或2所述的機器學習裝置,其特征在于,
上述控制器是進行位置控制、速度控制以及電流控制中的任意一個的控制器的組合,
該機器學習裝置在將上述控制器的任意一個作為對象進行了上述強化學習后,將其他控制器的一個作為對象進行上述強化學習時,按照進行電流控制的控制器、進行速度控制的控制器、進行位置控制的控制器的順序設為上述強化學習的對象。
4.根據權利要求1或2所述的機器學習裝置,其特征在于,
根據用于控制上述控制對象裝置的動作的位置指令來計算上述電動機的相位。
5.根據權利要求1或2所述的機器學習裝置,其特征在于,
上述控制器增益的傳輸函數包括上述電動機的相位作為變量。
6.一種伺服控制系統,具備權利要求1~5中的任意一項所記載的機器學習裝置和上述伺服控制裝置,其特征在于,
上述伺服控制裝置具備:
相位計算單元,其根據用于控制上述控制對象裝置的動作的位置指令來計算上述電動機的相位,并將計算出的電動機的相位輸出給上述狀態信息取得單元以及上述控制器。
7.一種機器學習裝置的機器學習方法,對控制具備電動機的控制對象裝置的動作的伺服控制裝置進行強化學習,該學習方法的特征在于,具備:
行為信息輸出步驟,對上述伺服控制裝置所具備的控制器輸出包括控制器增益的傳輸函數的系數的調整信息的行為信息;
狀態信息取得步驟,從上述伺服控制裝置取得狀態信息,該狀態信息包括在上述控制器根據上述行為信息使上述控制對象裝置進行動作時被輸入到上述控制器的指令與上述控制對象裝置的實際動作之間的偏差、上述電動機的相位以及上述控制器增益的傳輸函數的系數;
回報輸出步驟,根據上述狀態信息中包括的上述偏差來輸出強化學習的回報值;以及
價值函數更新步驟,根據上述回報值、上述狀態信息以及上述行為信息來更新行為價值函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于發那科株式會社,未經發那科株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810444852.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能防爆控制器
- 下一篇:一種具有散熱效果底座的控制器





