[發(fā)明專利]基于改進Transformer模型的語音識別方法及裝置在審
| 申請?zhí)枺?/td> | 202211375977.2 | 申請日: | 2022-11-04 |
| 公開(公告)號: | CN115831105A | 公開(公告)日: | 2023-03-21 |
| 發(fā)明(設計)人: | 胡建國;唐佳浩;盧星宇;丁顏玉;段志奎;秦軍瑞 | 申請(專利權(quán))人: | 中山大學;廣州智慧城市發(fā)展研究院 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/02;G10L15/06;G10L15/18;G06F18/25;G06N3/0455;G06N3/0464;G06N3/084 |
| 代理公司: | 廣州專理知識產(chǎn)權(quán)代理事務所(普通合伙) 44493 | 代理人: | 張鳳 |
| 地址: | 510000 *** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 transformer 模型 語音 識別 方法 裝置 | ||
1.基于改進Transformer模型的語音識別方法,其特征在于,包括以下:
獲取待識別的語音數(shù)據(jù);
對所述語音數(shù)據(jù)進行預處理得到預處理后的語音數(shù)據(jù);
通過改進的Transformer模型對所述語音數(shù)據(jù)進行語音識別得到語音識別結(jié)果;
輸出所述語音識別結(jié)果;
改進的Transformer模型與傳統(tǒng)的Transformer模型的不同之處在于,
特征融合的方式為利用拼接函數(shù)和卷積神經(jīng)網(wǎng)絡融合解碼器的高低層特征,并提取局部特征信息,將卷積神經(jīng)網(wǎng)絡提取的局部細節(jié)特征與Transformer的全局特征相融合;以及位置編碼增強,將Transformer模型的語音特征嵌入向量和位置編碼進行拆解,之后在Transformer模型每個編碼器層的自注意力子層中都加入位置編碼信息。
2.根據(jù)權(quán)利要求1所述的基于改進Transformer模型的語音識別方法,其特征在于,具體的,利用拼接函數(shù)和卷積神經(jīng)網(wǎng)絡融合解碼器的高低層特征,并提取局部特征信息,將卷積神經(jīng)網(wǎng)絡提取的局部細節(jié)特征與Transformer的全局特征相融合,包括,
首先將除最高層外的所有層特征拼接起來以便更好地融合,然后使用卷積神經(jīng)網(wǎng)絡來壓縮提取拼接后的特征,以保證融合特征后的輸出與每個解碼層的特征有相同的維度,其公式表現(xiàn)形式如下,
其中,SFF為算法定義名稱,Li∈Rb×d是解碼器中i·th的輸出,b表示批量(batch size)大小,d表示單個嵌入量,Concat(·)是拼接操作,Concat(·)∈R^((N-1)×b×d),也就是說,拼接操作在第一維度上拼接了輸入矩陣,ξ是一個壓縮函數(shù),SFF算法使用卷積神經(jīng)網(wǎng)絡實現(xiàn)壓縮,它使得SFF重新回到Rb×d,由于來自每個解碼器的特征都是Rb×d的維度,如果維度不相同,提取后的融合特征將不能疊加在原來的解碼器頂層,如此一來,最頂層的輸出特征LN(x)和便可以與SFF提取的特征進行疊加運算。
3.根據(jù)權(quán)利要求1所述的基于改進Transformer模型的語音識別方法,其特征在于,具體的,將Transformer模型的語音特征嵌入向量和位置編碼進行拆解,之后在Transformer模型每個編碼器層的自注意力子層中都加入位置編碼信息,包括,
編碼器只使用語音嵌入向量作為輸入,之后,將位置編碼添加進編碼器的每一個自注意力層中,在編碼器的自注意力層中,分別進行語音嵌入向量和位置編碼的關聯(lián)性Q×K計算,在計算的過程中,位置編碼使用自己獨立的自注意力矩陣,語音嵌入向量與位置編碼分別進行關聯(lián)性計算后融合在一起,共同產(chǎn)生注意力分布,Transformer的編碼器自注意力層計算公式如下,
其中,Q=xWQ,K=xWK,V=xWV,x是自注意力層的輸入,p是位置編碼,WQ、WK、WV與經(jīng)典Transformer模型一致,分別為查詢query、鍵key、值value的映射矩陣,和是位置編碼增強在子注意力層增加的兩個映射矩陣,分別為位置編碼獨立的查詢、鍵映射矩陣。
4.基于改進Transformer模型的語音識別裝置,其特征在于,包括以下:
語音數(shù)據(jù)獲取模塊,用于獲取待識別的語音數(shù)據(jù);
預處理模塊,用于對所述語音數(shù)據(jù)進行預處理得到預處理后的語音數(shù)據(jù);
語音識別模塊,用于通過改進的Transformer模型對所述語音數(shù)據(jù)進行語音識別得到語音識別結(jié)果;
結(jié)果輸出模塊,用于輸出所述語音識別結(jié)果;
改進的Transformer模型與傳統(tǒng)的Transformer模型的不同之處在于,
特征融合的方式為利用拼接函數(shù)和卷積神經(jīng)網(wǎng)絡融合解碼器的高低層特征,并提取局部特征信息,將卷積神經(jīng)網(wǎng)絡提取的局部細節(jié)特征與Transformer的全局特征相融合;以及位置編碼增強,將Transformer模型的語音特征嵌入向量和位置編碼進行拆解,之后在Transformer模型每個編碼器層的自注意力子層中都加入位置編碼信息。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學;廣州智慧城市發(fā)展研究院,未經(jīng)中山大學;廣州智慧城市發(fā)展研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211375977.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡模型壓縮算法
- 點云分割方法、系統(tǒng)、介質(zhì)、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經(jīng)網(wǎng)絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





