[發明專利]一種類腦快慢雙通路無人自主決策方法有效
| 申請號: | 202110453835.2 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113139656B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 劉洪波;王乃堯;王怡洋;汪大峰;江欣;劉凱 | 申請(專利權)人: | 大連海事大學 |
| 主分類號: | G06V20/50 | 分類號: | G06V20/50;G06V10/80;G06V10/764;G06V10/82;G06N3/0464;G06N3/0442;G06N3/0455;G06N3/048;G06N3/084;G06V20/17 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 魯保良;李洪福 |
| 地址: | 116026 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 種類 快慢 通路 無人 自主 決策 方法 | ||
1.一種類腦快慢雙通路無人自主決策方法,其特征在于:包括以下步驟:
A、建立任務預處理池化注意力機制
首先利用無人設備上的攝像頭采集視頻觀測信息,然后對獲取到的觀測信息通過卷積神經網絡進行特征提取得到特征向量,然后對得到的特征向量進行維度轉化操作,使用長短期記憶神經網絡進行編碼操作,得到隱藏潛向量后進行對等平衡池化操作得到池化向量;具體步驟如下:
A1、獲取場景觀測信息,對觀測信息通過預訓練的卷積神經網絡進行特征提取得到目標增強特征向量C和目標檢測特征向量D,如公式(1)所示:
C,D=VGG(Xi,X1:N\i;Wcd)????????????????????????????(1)
其中,VGG(·)表示卷積神經網絡,Xi和X1:N\i表示相應的場景中的i個觀測信息和除了第i個觀測信息之外的觀測信息,N表示觀測信息的總個數,Wcd是卷積神經網絡的權重;
A2、對得到的目標增強特征向量C和目標檢測特征向量D經過置換函數進行維度轉化操作,并輸入到長短期記憶神經網絡中,如公式(2)所示:
H(h1),H(h2)=Permute(C,D)??????????????????????????(2)
其中,Permute(·)是維度轉換函數,H(h1),H(h2)分別是目標增強特征向量C和目標檢測特征向量D經過轉換后的目標增強特征轉置向量和目標檢測特征轉置向量;
A3、將H(h1),H(h2)作為輸入經過長短期記憶神經網絡編碼后,得到圖像增強和目標檢測隱藏潛向量,如公式(3)所示:
其中,是編碼后得到的圖像增強和目標檢測的隱藏潛向量,LSTM(·)是長短期記憶神經網絡,cell是細胞狀態;
A4、將得到的隱藏潛向量輸入到對等平衡池化模塊操作得到池化向量,如公式(4)所示:
其中,函數PM(·)是對等平衡池化操作,記為Pi為池化向量;
B、建立慢通路類腦多任務時序能量對抗模型
建立慢通路類腦多任務時序能量對抗模型,用以對無人設備的軌跡預測和路徑跟蹤任務進行定義和策略規劃;首先構建類腦多任務時序動作生成網絡,拼接預處理池化向量實現特征表示,然后依據概率分布劃分策略使不同任務的噪聲映射到對應的空間,對不同任務進行解碼拆分并依據互信息正則化網絡衡量噪聲本質,最后構造多任務能量評價網絡評測模型性能;具體步驟如下:
B1、對觀測信息通過一個固定的任務編碼網絡得到一個固定的向量然后把這些編碼后的向量送入長短期記憶神經網絡中,具體的操作過程如公式(5)所示:
其中,φ(·)是帶有激活函數為線性整流函數的編碼神經網絡,Wee為編碼神經網絡權重,Wencoder是長短期記憶神經網絡的權重且是被同一時觀測信息共享;he3,he4是軌跡預測和目標跟蹤編碼的潛在隱變量;
B2、采用概率分布劃分策略,讓不同任務的噪聲映射到不同的噪聲空間內,通過對噪聲的高密度區域進行采樣來執行具體動作,其具體操作如公式(6)所示:
其中,PDC(·)是噪聲劃分網絡,是生成網絡函數,Uθ是能量函數;Wtraj,Wtrac分別為軌跡噪聲權重和跟蹤噪聲權重;
B3、通過概率分布劃分策略得到拼接向量,并將拼接向量送入任務解碼模塊中的長短期記憶神經網絡,作為長短期記憶神經網絡的輸入,如公式(7)所示:
其中,ztraj,ztrac為軌跡噪聲和跟蹤噪聲,Concat(·)為向量拼接函數,為軌跡和跟蹤拼接后的軌跡預測任務向量和目標跟蹤任務向量;經過長短期記憶神經網絡得到下一時刻的任務的隱變量,最終通過任務分類網絡γ(·),執行具體任務;Wact是任務分類網絡的權重,ai,ai+1分別為軌跡和跟蹤的預測行為結果;如公式(8)所示:
B4、為了讓未來生成的執行動作ai更加精確,引入一種互信息正則化網絡,最大化輸入Xi與輸出ai之間的互信息,衡量輸入Xi與輸出ai之間本質上的相關性;具體的計算過程如公式(9)所示:
X是隨機打亂順序的輸入X,Tφ(·)表示兩個變量間的互信息,是一種激活函數,它的值如公式(10)所示:
互信息正則化損失函數作用于預測動作的輸出,使未來動作更加精確;M為一次送入神經網絡的批尺寸batchsize的大小;
B5、構建能量評價網絡,并采用能量對抗損失函數訓練類腦多任務時序能量對抗模型,能量評價網絡構建如公式(11)所示:
其中,FCR(·)是帶有權重Wen1的任務編碼網絡;是軌跡和跟蹤任務動作編碼后的軌跡預測編碼向量和目標跟蹤編碼向量,是所有時間任務內的聚合隱變量;MLP(·)是帶有權重Wen2的任務打分網絡;Wen是長短期記憶神經網絡LSTM()的權重;Seng是經過任務打分網絡得到的能量打分值;
能量對抗損失函數構建如公式(12)所示:
其中,p(x)代表真實數據分布,q(z)代表正態分布且z是采樣噪聲,m是鉸鏈損失函數即Hinge?Loss?function的超參數且m>0;
上述多任務時序動作生成網絡G和多任務能量評價網絡U組成慢通路類腦多任務時序能量對抗模型;
C、建立快通路顯著性決策模型
首先通過任務預處理池化注意力機制中目標檢測模塊識別目標,并通過自編碼器編碼觀測目標的空間特征;然后將每個目標的空間特征按時間順序輸入行為快照長短期記憶神經網絡,用以建模目標的時間動態變化,即各目標短期內在水平、豎直方向上的位移量;利用時間動態排序機制,設定目標優先級,以此甄別冗余信息,降低模型復雜度;同時構建一種“履帶式”交互模式,實現信息流轉傳播;最后通過顯著角色加權機制捕捉顯著行為目標并以加權方式將所有目標隱狀態逐級聚合,導入最終的快速行為策略模塊;具體步驟如下:
C1、通過任務預處理池化注意力機制中目標檢測模塊輸出的目標特征序列,并通過自編碼器編碼目標空間特征,如公式(13)所示:
Zi=ε(Di;Wae)?????????????????????????????????(13)
其中,Di為目標檢測特征向量,Wae為自編碼器神經網絡參數,ε(·)為自編碼器,Zi為目標空間特征;
C2、將長度為l的目標短時空間特征輸入行為快照長短期記憶神經網絡中,用以建模目標的時間動態變化,行為快照長短期記憶神經網絡構建如下,如公式(14)所示:
其中,pt為輸入門,ft為遺忘門,vt為輸出門,gt為輸入調節門,mt為細胞狀態,nt為隱狀態,σ(·)是Sigmoid激活函數,⊙是點乘運算符,ψ(·)是tanh激活函數,W是行為快照長短期記憶神經網絡的權重,b是行為快照長短期記憶神經網絡的偏置;
C3、對短期各目標位移總量進行排序,同時將對應的隱狀態導入優先級判別層,將優先級別較低的目標視作冗余目標并將其移除,降低模型復雜度,如公式(15)所示:
其中,ui,j,vi,j分別表示目標i在j時刻的水平、豎直方向的位移量,K表示優化目標個數,{o1,o2…}是由大到小排序后的序列索引,索引后釋放nt序列;
C4、令和分別表示為正向交互順序和逆向交互順序,通過定義“履帶式”交互模式,實現信息流轉傳播,如公式(16)所示:
C5、通過加權方式突出顯著角色在快通路顯著性決策模型中的作用,為顯著角色賦以較高權重,而次要角色賦以較低權重,然后對所有目標隱狀態逐級聚合,編碼成強化學習中的環境隱變量s,如公式(17)所示:
eij=χ(di,dj).????????????(17)
其中,χ為雙層長短期記憶神經網絡構建的顯著函數;
C6、構建以無模型獨立強化學習的無人設備快通路控制策略,如公式(18)所示:
π1(a1|s;θ1)=f(s)????????????(18)
其中,f(·)為深度控制網絡;
D、構建快慢雙通路強化博弈機制
設置快慢雙通路用于無人設備自主決策來主動跟蹤目標,利用多巴胺效能強化反饋獎勵的變化,最后構造偏分零和博弈獎勵結構,讓無人設備進行最終決策并形成行為策略;具體步驟如下:
D1、對于快、慢通路的無人設備agent,定義下標1表示短期快通路應激agent1,下標2表示長期慢通路規劃agent2;博弈由元組{S,A,R,P}控制,其中S,A,R,P分別表示狀態空間、動作空間、獎勵函數和環境狀態轉移概率;兩個agent獲得獎勵值分別為r1,t=R(st,a1,t),r2,t=R(st,a2,t);其中si∈S,ai∈A,ri∈R,短期策略π1(a1,t|st)是基于當前環境狀態st,輸出瞬時追蹤行為a1,t的價值集合;依靠無模型獨立強化學習來學習π1,如公式(19)所示:
π1(a1,t|st;θ1)=f(st)?????????????(19)
重要的是,長期規劃π2(a2,t|{st-n→st},{at-n→at-1},{rt-n→rt-1})是基于t-n時刻到t時刻內的環境交互信息,輸出‘深思’后的追蹤行為a2,t的價值集合;然后長期規劃π2是參數為θ2的長短期記憶神經網絡,如公式(20)所示:
D2、構造中腦多巴胺神經元模型攜帶時序差分學習的獎勵預測誤差信號反饋獎勵的變化,加入一個對正向和負向誤差迭代的不對稱性,隨著多巴胺神經遞質濃度不同,對誤差的反饋也不同,如公式(21)所示:
Di(t)←Di(t-1)+λi+rt,rt>0,
其中,λi+是正向誤差迭代系數,λi-是負向誤差迭代系數;
D3、構造用于無人設備主動目標跟蹤任務的偏分零和獎勵結構,其獎勵函數包含一個常數和一個誤差懲罰項,目標的當前時刻位置和下一時刻位置分別用(ρt,σt)和(ρt+1,σt+1)表示;其中,ρ是目標到無人設備的直線距離,κ是目標到無人設備視角中心線的相對角度,如公式(22)所示:
其中A>0是獎勵值上限,ζ>0和ξ>0分別是追蹤距離和追蹤角度的平衡系數;ρmax是到無人設備的最大可觀察距離;κmax是攝像頭最大觀察視角的0.5倍;
當短期策略與長期規劃的最優行為一致時,at=a1,t=a2,t;短期策略agent1的獎勵值r1,t=rt;但是長期規劃的獎勵值如公式(23)所示:
其中,是長期規劃中預測的第t+i時刻的獎勵值,ι是預測的時間跨度;
當短期策略與長期規劃的最優行為不一致時,at=max{V1(a1,t),V2(a2,t)},其中V是評價所有行為的價值函數;此時若V1(a1,t)>V2(a2,t)表示短期策略占據優勢,最終決策at=a1,t,短期策略的獎勵值r1,t=rt,長期規劃的獎勵值如公式(24)所示:
其中μ和ν是控制懲罰項的可調參數,Γ是評估長期規劃中預測的下一時刻環境狀態與真實狀態差距的距離函數;
反之,當V1(a1,t)<V2(a2,t)表示長期規劃占據上風。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連海事大學,未經大連海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110453835.2/1.html,轉載請聲明來源鉆瓜專利網。





