[發明專利]基于瓶頸特征和多尺度多頭注意力機制的語音識別模型建立方法有效
| 申請號: | 201910477034.2 | 申請日: | 2019-06-03 |
| 公開(公告)號: | CN110211574B | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 韓紀慶;唐海桃;鄭鐵然;鄭貴濱 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L15/02 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 劉冰 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 瓶頸 特征 尺度 多頭 注意力 機制 語音 識別 模型 建立 方法 | ||
1.基于瓶頸特征和多尺度多頭注意力機制的語音識別模型建立方法,其特征在于:所述方法包括以下步驟:
步驟一、利用輸入的樣本FBank語音特征向量X=(x1,x2,...,xT)對DBN中的RBM網絡進行無監督訓練,得到初始化編碼網絡中前三層連接權重矩陣W1、W2、W3,由這三層連接權重矩陣和一層隨機初始化權值輸出層W4組成編碼網絡前端的基于DBN的瓶頸特征提取網絡;RBM網絡表示受限玻爾茲曼機;DBN表示深度置信網絡;FBank表示濾波器組;
步驟二、抽取樣本FBank語音特征向量X=(x1,x2,...,xT)輸入至步驟一的四層瓶頸特征提取網絡中,利用前向計算得到瓶頸特征提取網絡輸出v;然后,根據瓶頸特征提取網絡的輸出v和樣本訓練數據X的實際輸出采用BP算法對瓶頸特征提取網絡進行有監督訓練,以計算四層的瓶頸特征提取網絡的每層權值△Wtl和偏置的梯度,再對權值和偏置進行迭代更新;
步驟三、將步驟二的四層瓶頸特征提取網絡最后一層輸出層去掉,只保留前三層重新作為編碼網絡的前端,將前端輸出的瓶頸特征序列(v1,v2,...,vn)作為RNN的輸入,此處RNN為編碼網絡的后端,它由兩組基于GRU的多層RNN組成,分別為前向網絡和后向網絡;
則輸入的FBank語音特征向量X經過編碼網絡前端瓶頸特征提取網絡得到瓶頸特征序列(v1,v2,...,vn),輸出的瓶頸特征序列通過編碼器后端基于GRU的多層RNN得到最終的輸出為高層特征序列(h1,h2,...,hT);
步驟四、采用多尺度多頭的注意力機制將編碼網絡后端輸出的高層特征序列(h1,h2,...,hT)分別注入不同尺度的卷積核Fi中,并對音素、音節、詞級別的語音基元進行建模,從而得到各自的目標向量cto,再將每種模型對應的cto作為多尺度多頭注意力網絡中每個頭的解碼RNN網絡的輸入,逐個計算出RNN隱含層狀態序列(s1,s2,...,so),以及輸出音素序列(y1,y2,...,yo);
所述的步驟四中,多尺度多頭注意力模型的注意力網絡構建過程:
采用多尺度多頭的注意力機制,計算序列到序列模型的輸出序列的元素yo,將特征序列(h1,h2,...,hT)采用不同尺度的卷積核Fi映射成每個頭的注意力機制的一個目標向量cto;再將cto作為每個頭的注意力網絡后的解碼網絡輸入,逐個計算出循環神經網絡隱含層狀態序列(s1,s2,...,so),以及輸出序列(y1,y2,...,yo);其中,
多尺度多頭注意力模型的單個頭注意力模型,采用注意力機制計算輸出序列位置o∈{1,2,...,O}對應的目標向量cto過程如下:
首先,計算輸出序列位置o-1的隱含層狀態so-1與時刻t的特征的關聯度,如式(21)所示:
eo,t=a(so-1,ht) (21)
其中,a(·)代表注意力網絡,是只含一個隱含層的多層感知器,表示為:
eo,t=ωTtanh(W[so-1,ht,fo,t]+b) (22)
fo=Fi*αo-1 (23)
其中,W和b分別為輸入層到隱含層權重矩陣和偏置向量,ω為隱含層到輸出層權重矩陣,Fi為卷積核,對于多尺度多頭的注意力機制,Fi的卷積核大小是不一樣的,每一個頭的卷積部分采用不同大小的卷積濾波器;
多尺度多頭模型不僅采用不同的卷積濾波器參數隨機初始化,使多頭模型形成集成模型,而且不同大小的卷積濾波器代表不同的模型,能夠讓上一時刻的注意力得分在各種模型的監督下進行學習和訓練,得到不同的語音基元模型;卷積濾波器尺寸較小的模型主要代表著音素一級的模型,正常大小的模型主要代表著音節一級的模型,而尺寸較大的模型代表著詞一級的模型;
然后,對所有時刻特征的關聯度進行指數歸一化,歸一化后的數值稱為注意力系數如下:
最后,將注意力系數作為權重,對所有時刻的特征加權求和,得到注意力機制下輸出序列位置o的目標向量cto:
采用注意力機制計算目標向量的過程,可以簡記為式(26):
cto=attention([h1,h2,...hT,so-1) (26)
步驟五、使用多尺度多頭注意力網絡中每個頭的注意力網絡所對應的解碼RNN網絡計算輸出序列(y1,y2,...,yo)進行拼接得到新的輸出序列(y1,y2,...,yo)i;將新的輸出序列采用DNN整合成最終的輸出序列(Y1,Y2,...,Yo);
所述的步驟五中,使用每個頭的注意力網絡所對應的解碼網絡計算輸出序列(y1,y2,...,yo)在位置o的元素yo的過程為:
對于多尺度多頭注意力模型的單個頭而言,每個頭的注意力網絡后的解碼網絡在計算輸出序列(y1,y2,...,yo)位置o的元素yo時,網絡的輸入是多尺度單個注意力網絡生成目標向量cto和位置o-1的元素yo-1,計算過程如下:
首先,解碼網絡依據注意力網絡計算得到目標向量cto,并且將cto和yo-1作為基于GRU單元循環神經網絡的輸入,計算循環神經網絡的隱含層狀態so,如式(27)所示:
so=GRU(so-1,[yo-1,cto]) (27)
然后,給定解碼網絡的隱含層狀態so∈Rd作為輸入條件下,通過maxout網絡計算得到音素i的后驗概率maxout網絡的每個隱含層單元有多個候選單元,該網絡從中選擇數值最大的單元作為輸出,計算過程下:
其中,d為輸入隱含層狀態so的維度,對應隱含層單元數目,Wi,j∈Rd×m×k和bi,j∈Rm×k分別為maxout網絡參數矩陣和偏置向量,k為maxout網絡每個隱含層單元的候選單元數,m為輸出層單元數目,在聲學模型中對應輸出音素種類數目;
最后,如式(30)所示,由maxout網絡的輸出層得到輸出向量yo,yo第i個分量表示輸出序列位置o上音素i出現的后驗概率;
最終,將所有輸出序列(y1,y2,...,yo)i采用DNN整合成一個新的輸出序列(Y1,Y2,...,Yo);
Yi=DNN((y1,y2,...,yo)i) (31)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910477034.2/1.html,轉載請聲明來源鉆瓜專利網。





