[發明專利]一種基于膜電位自增機制的脈沖神經網絡訓練方法有效
| 申請號: | 202111065696.2 | 申請日: | 2021-09-10 |
| 公開(公告)號: | CN113792857B | 公開(公告)日: | 2023-10-20 |
| 發明(設計)人: | 梁東晨;曹江;平洋;吳冠霖;欒紹童;閆妍;馬寧 | 申請(專利權)人: | 中國人民解放軍軍事科學院戰爭研究院 |
| 主分類號: | G06N3/049 | 分類號: | G06N3/049;G06N3/06;G06N3/084;G06N3/092 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 張利萍 |
| 地址: | 100091 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 膜電位 機制 脈沖 神經網絡 訓練 方法 | ||
1.一種基于膜電位自增機制的脈沖神經網絡訓練方法,其特征在于:包含以下步驟:
步驟一、基于機器人虛擬仿真環境,采用深度強化學習方法,搭建強化學習環境,把其中的人工神經網絡部分替換為脈沖神經網絡;
步驟二、以機器人虛擬仿真環境提供的環境狀態信息,作為脈沖神經網絡的輸入信號;
步驟三、采用引入膜電位自增機制的神經元模型構造脈沖神經網絡;
步驟四、在強化學習框架下,采用反向傳播方法對脈沖神經網絡進行訓練,使其能夠準確預測當前環境狀態對應的未來獎勵,并把其輸出結果用于對機器人的控制;
步驟五、脈沖神經網絡的輸出作為當前環境狀態下,機器人采取各個動作后預期獲得的未來獎勵,選擇未來獎勵最高的動作對機器人進行控制。
2.如權利要求1所述的一種基于膜電位自增機制的脈沖神經網絡訓練方法,其特征在于:步驟三的實現方法為:
在訓練過程中,采用無漏電流的積分與興奮神經元,在其膜電位動力學公式的右端加入一個自增項βexp(t),β為可調節自增項大小的參數,新的膜電位動力學公式可以表示為:
其中,Vmem(t)為細胞膜電位,它是時間t的函數;公式右側為輸入的突觸電流,wi為突觸連接的權重,為第i個神經元發出第r個脈沖的時間,κ為突觸電流的計算公式:
其中,Tsyn為時間常數,為簡化公式表達,把它設置為1;
對公式(1)進行積分,可以得到:
Vment(tout)=∑i∈Cwi(1-exp(-tout+ti))+βexp(tout)-β (3)
其中,tout為神經元被激活后,產生脈沖的時間;C={i:ti<tout},為所有在tout之前出現的輸入脈沖,只有這些脈沖能影響tout;Vment(tout)是神經元被激活時細胞膜電位需達到的閾值,為簡化公式表達,在下列公式中設置為1;
在公式(3)中對exp(tout)進行求解,可以得到表達式:
公式(4)成立的條件是公式(5)滿足,另外由于tout為時間,需大于0,所以公式(4)的右端應大于1,公式(6)也需滿足;
(∑i∈Cwi-1-β)2>-4β∑i∈Cwiexp(ti) (5)
由于β∑i∈Cwiexp(ti)大于0,公式(5)恒成立;
∑i∈Cwi(exp(ti)-1)>-1 (7)
公式(6)等價為公式(7),由于exp(ti)>1,(7)恒成立;因此,公式(4)恒成立,所以tout總是存在的,即脈沖神經網絡中每個神經元都會在有限的時間范圍內興奮。
3.如權利要求1所述的一種基于膜電位自增機制的脈沖神經網絡訓練方法,其特征在于:步驟四的實現方法為:
采用反向傳播算法進行訓練時,需要先對脈沖神經網絡進行轉化:
如果令zout=exp(tout),zi=exp(ti),代入(4)可以得到:
公式(8)可以寫為:
zout=f(∑i∈Cwizi) (9)
如果把zi看作上一層神經元的激活值,f為激活函數,zout為當前神經元的輸出,公式(9)與人工神經網絡的激活函數具有一致的格式;因此,可以把反向傳播算法運用到引入自增項的脈沖神經網絡訓練,即構造等價的人工神經網絡,采用反向傳播算法進行訓練,訓練結果用于脈沖神經網絡的參數更新,與時間編碼方法的原理一致。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍軍事科學院戰爭研究院,未經中國人民解放軍軍事科學院戰爭研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111065696.2/1.html,轉載請聲明來源鉆瓜專利網。





