[發明專利]門控激活單元運算的并行執行在審
| 申請號: | 201780095698.1 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN111194451A | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 埃里克·康拉德·埃爾森 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/063;G06F9/50 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 門控 激活 單元 運算 并行 執行 | ||
提供了用于交織門控激活單元的矩陣運算的方法、系統和裝置,包括編碼在計算機存儲介質上的計算機程序。該方法中的一個包括:接收神經網絡的門控激活單元的多個權重矩陣,該門控激活單元具有兩個或更多個層,每一個層定義包括以下的運算:(i)層的權重矩陣和拼接的輸入向量之間的矩陣運算,以及(ii)使用該矩陣運算的結果的非線性激活運算。多個權重矩陣的行通過將對應行的組分配給相應線程塊被交織,每一個線程塊是用于由并行處理設備的多個獨立處理單元中的一個獨立處理單元執行的計算單元。
背景技術
本說明書涉及在并行處理硬件上實現神經網絡的技術。
神經網絡是使用一個或多個層的非線性計算單元來預測針對接收到的輸入的輸出的機器學習模型。一些神經網絡除了輸出層之外還包括一個或多個隱藏層。每個隱藏層的輸出用作網絡中下一個層——即下一個隱藏層或輸出層——的輸入。網絡的每一層根據相應的參數集的當前值從接收到的輸入生成輸出。
對于當前時間步,循環神經網絡生成由針對一個或多個先前的時間步生成的其他輸出所通知的輸出。一些循環神經網絡使用門控激活單元。這種循環神經網絡可以被稱為門控循環神經網絡。
門控激活單元通過實現控制在先前的時間步中生成的信息有多少應記住且有多少應遺忘的功能來維持一種類型的記憶。普通的門控激活單元包括長短期記憶單元(LSTM單元)、門控循環單元(GRU)及其幾種變體。
通常,門控激活單元至少使用先前的隱藏狀態和當前輸入來更新當前隱藏狀態。更新隱藏狀態通常涉及一種或多種線性變換和一種或多種非線性激活。每個線性變換可以使用權重矩陣和偏置向量。因此,訓練門控循環神經網絡涉及學習用于每個門控激活單元的權重矩陣和偏置向量。
圖1示出了現有技術LSTM單元100。LSTM單元100既保持隱藏狀態ht也保持細胞狀態ct。LSTM單元100實現確定要遺忘多少先前的隱藏狀態的遺忘門;確定要更新細胞狀態的哪個值的輸入門以及確定要輸出哪個值的輸出門。
LSTM單元100的運算可以由以下等式定義,其中先前的隱藏狀態ht-1對應于ht-1103,先前的細胞狀態ct-1對應于ct-1 105,并且當前輸入xt對應于xt 107。在這種背景下,“*”指的是逐點乘法,“+”指的是逐點加法,“σ”是sigmoid激活函數。符號“Wx[ht-1,xt]”指的是矩陣Wx與和xt拼接(concatenate)的ht-1向量的矩陣乘法。一些文獻將每個矩陣Wx分為兩個矩陣W和U,在這種情況下,W與ht-1相乘,U與xt相乘。LSTM單元100的運算由以下等式定義:
ft=σ(Wf[ht-l,xt]+bf) (1)
it=σ(Wi[ht-1,xt]+bi) (2)
ot=σ(Wo[ht-l,xt]+bo) (3)
c_bart=tanh(Wc[ht-l,xt]+bc) (4)
ct=ft*ct-1+it*c_bart (5)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780095698.1/2.html,轉載請聲明來源鉆瓜專利網。





