[發明專利]一種基于獨立循環神經網絡的語言模型建模方法有效
| 申請號: | 202010067852.8 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111310892B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 程春玲;朱濤;閔麗娟;王亞石;楊維榮 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G10L15/06;G10L15/16;G10L15/183;G10L15/26 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210009 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 獨立 循環 神經網絡 語言 模型 建模 方法 | ||
1.一種基于獨立循環神經網絡的語言模型建模方法,其特征在于,包括以下步驟:
步驟1)、獲取訓練數據集,并對訓練數據集進行數據預處理;
步驟2)、以獨立循環神經網絡為基本單元構建網絡結構;
步驟201)、以獨立循環神經網絡為基本單元,以單向層疊的方式建立網絡結構,其中每層的各個神經元之間相互獨立,它們的聯系通過層與層之間的連接實現,第一層為輸入層,輸入為單詞的one-hot向量;從第二層開始到倒數第二層為中間處理層,即隱藏層,隱藏層之間按全連接的方式互連,隱藏層的層內的神經元之間沒有連接;最后一層為softmax輸出層;每個神經元只從輸入和上一時刻的隱態本身接收信息;不同神經元之間的相關性通過堆疊兩層或多層網絡得以實現;下一層中的每個神經元將處理前一層中所有神經元的輸出;
步驟202)、對于第n個神經元,隱藏狀態hn,t計算方式如下:
其中,hn,t表示隱藏狀態,σ(·)表示激活函數,wn表示第n個神經元的輸入權重,un表示第n個神經元的循環權重,表示哈達瑪內積,xl,t表示第l層在時刻t的輸入,來自于上一層的所有輸出,hn,t-1表示當前隱態上一時刻的輸出信息,bn表示第n個神經元的偏置;
步驟203)、由于在一個層中它們之間沒有相互作用,對每個獨立循環神經網絡神經元可以獨立地計算的梯度;對于第n個神經元隱藏狀態hn,t,忽略偏置項b,在時間T內最小化的目標是Jn,則在時刻t的反向傳播梯度為:
其中,σ'n,k+1表示激活函數的導數,有效梯度的范圍為[ε,γ],ε表示最小的有效梯度值,γ表示不發生梯度爆炸時的最大梯度值,un應滿足其中
步驟3)、對構建的網絡結構使用IndDrop正則化;
步驟301)、在獨立循環神經網絡中每個神經元接收的信息僅來自于輸入和上一時間步中神經元本身的隱藏狀態;下一層中的每個神經元將處理前一層中所有神經元的輸出;為了不影響時間信息對結果的影響,僅在層與層之間應用IndDrop正則化操作,保持各時間步之間的數據輸入:
其中,D表示IndDrop操作;
具體做法為:dropout破壞單元所攜帶的信息,迫使他們更加魯棒的進行中間計算;同時,不會刪除神經元攜帶的所有信息,即神經元將會記住過去若干時間步的信息,只在下一層神經元接收前一層所有神經元的輸出時進行dropout操作;
步驟4)、使用對數雙線性模型計算softmax輸出層的輸出;
步驟401)、將每個單詞用一個實值特征向量表示,用rw表示單詞w的特征向量,R表示包含所有這些特征向量的矩陣;給定上下文w1:n-1,為了預測下一個單詞wn,對數雙線性模型將線性組合上下文單詞特征向量來計算下一個單詞的特征向量r*:
其中,Wi表示與上下文位置i相關聯的權重矩陣;
步驟402)、使用內積計算詞匯表中每個詞的預測特征向量和特征向量之間的相似性;之后對相似性進行取冪和歸一化,以獲得下一個單詞的分布:
其中,P(wn=w|w1:n)表示在給定歷史詞匯w1:n-1的情況下,當前單詞wn出現的概率,r*T表示r*的轉置,b’w表示單詞w的偏置項,用于捕獲與上下文無關的單詞頻率;
步驟5)、將訓練完成的語言網絡模型應用到語音識別中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010067852.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種跨局域網絡的通訊網關系統
- 下一篇:一種關于專色油墨的命名方式





