[發(fā)明專利]基于瓶頸特征和多尺度多頭注意力機(jī)制的語音識(shí)別模型建立方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910477034.2 | 申請(qǐng)日: | 2019-06-03 |
| 公開(公告)號(hào): | CN110211574B | 公開(公告)日: | 2022-03-11 |
| 發(fā)明(設(shè)計(jì))人: | 韓紀(jì)慶;唐海桃;鄭鐵然;鄭貴濱 | 申請(qǐng)(專利權(quán))人: | 哈爾濱工業(yè)大學(xué) |
| 主分類號(hào): | G10L15/06 | 分類號(hào): | G10L15/06;G10L15/16;G10L15/02 |
| 代理公司: | 哈爾濱市松花江專利商標(biāo)事務(wù)所 23109 | 代理人: | 劉冰 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 瓶頸 特征 尺度 多頭 注意力 機(jī)制 語音 識(shí)別 模型 建立 方法 | ||
基于瓶頸特征和多尺度多頭注意力機(jī)制的語音識(shí)別模型建立方法,屬于建模方法領(lǐng)域。傳統(tǒng)的注意力模型存在識(shí)別性能較差,注意力尺度單一等問題。一種基于瓶頸特征和多尺度多頭注意力機(jī)制的語音識(shí)別模型建立方法,采用深度置信網(wǎng)絡(luò)提取瓶頸特征作為前端,能夠增加模型的魯棒性,而后端則采用由不同尺度的卷積核組成的多尺度多頭注意力模型,分別對(duì)音素、音節(jié)、詞等級(jí)別的語音基元進(jìn)行建模,逐個(gè)計(jì)算出循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層狀態(tài)序列以及輸出序列;使用每個(gè)頭的注意力網(wǎng)絡(luò)所對(duì)應(yīng)的解碼網(wǎng)絡(luò)計(jì)算輸出序列在位置處的元素,最終將所有輸出序列采整合成一個(gè)新的輸出序列。本發(fā)明能夠提高語音識(shí)別系統(tǒng)的識(shí)別效果。
技術(shù)領(lǐng)域
本發(fā)明涉及一種語音識(shí)別技術(shù)領(lǐng)域的訓(xùn)練模型,具體涉及一種通過提取瓶頸特征來增加模型的魯棒性,以及建立多尺度多頭模型來對(duì)音素、音節(jié)、詞等級(jí)別的語音基元進(jìn)行建模,以提高其識(shí)別性能的改進(jìn)方法。
背景技術(shù)
語音信號(hào)是人類社會(huì)中最普遍和常用的信號(hào)之一,它是人們表達(dá)、交流和傳播信息的重要途徑。在當(dāng)今信息爆炸的時(shí)代,互聯(lián)網(wǎng)和電話信道中無時(shí)無刻不在產(chǎn)生海量語音數(shù)據(jù),為了更加高效地對(duì)大規(guī)模語音信號(hào)進(jìn)行識(shí)別、分類和檢索,自動(dòng)語音識(shí)別(AutomaticSpeech Recognition,ASR)的需求變得更加的迫切。與基于傳統(tǒng)的隱馬爾可夫模型(HiddenMarkov Model,HMM)語音識(shí)別系統(tǒng)相比,端到端的語音識(shí)別系統(tǒng)把聲學(xué)模型、發(fā)音字典和語音模型全部融合至一套神經(jīng)網(wǎng)絡(luò)中,在讓模型變得更加簡潔的同時(shí)也更便于對(duì)參數(shù)直接優(yōu)化;端到端模型具有更強(qiáng)的通用性,既減少了對(duì)專業(yè)語言學(xué)知識(shí)的依賴,又降低了語音識(shí)別系統(tǒng)的搭建難度;端到端模型的訓(xùn)練數(shù)據(jù)不需要對(duì)齊信息,可直接將帶標(biāo)注的語音直接用于訓(xùn)練。注意力模型擺脫對(duì)模型輸出獨(dú)立性假設(shè),通過注意力系數(shù)來量化音素與特征的對(duì)齊關(guān)系,具有一定的解釋性。本專利關(guān)于端到端語音識(shí)別的研究將從注意力模型展開,聚焦目前基于注意力模型的語音識(shí)別系統(tǒng)存在的訓(xùn)練周期長和識(shí)別性能欠缺等問題。針對(duì)注意力模型由于內(nèi)部應(yīng)用大量循環(huán)神經(jīng)網(wǎng)絡(luò)單元,致使其參數(shù)規(guī)模龐大且內(nèi)部結(jié)構(gòu)復(fù)雜,因此造成訓(xùn)練效率低下的問題,盡管可以通過增加硬件計(jì)算資源來部分的加以解決,但從算法層面研究仍然是一個(gè)難點(diǎn)問題。注意力模型將語音學(xué)的先驗(yàn)知識(shí)徹底摒棄致使其缺少有效的初始化參數(shù),造成參數(shù)收斂速度緩慢,這也是增加訓(xùn)練時(shí)間的重要原因,因而如何將模型與語音特征整合是一項(xiàng)非常有意義的工作。注意力模型在性能上與傳統(tǒng)模型存在差距的原因?yàn)椋赫Z料資源有限導(dǎo)致的訓(xùn)練不充分、生成特征與音素(字素)對(duì)齊關(guān)系不夠準(zhǔn)確,模型對(duì)噪聲的魯棒性較差。針對(duì)以上問題,需要對(duì)此模型進(jìn)行深入研究,尋求合理的解決方案。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有的傳統(tǒng)注意力模型存在識(shí)別性能較差,注意力尺度單一的問題,而提出一種基于瓶頸特征和多尺度多頭注意力機(jī)制的語音識(shí)別模型建立方法。
一種基于瓶頸特征和多尺度多頭注意力機(jī)制的語音識(shí)別模型建立方法,所述方法包括以下步驟:
步驟一、利用輸入的樣本FBank語音特征向量X=(x1,x2,...,xT)對(duì)DBN中的RBM網(wǎng)絡(luò)進(jìn)行無監(jiān)督訓(xùn)練,得到初始化編碼網(wǎng)絡(luò)中前三層連接權(quán)重矩陣W1、W2、W3,由這三層連接權(quán)重矩陣和一層隨機(jī)初始化權(quán)值輸出層W4組成編碼網(wǎng)絡(luò)前端的基于DBN的瓶頸特征提取網(wǎng)絡(luò);RBM網(wǎng)絡(luò)表示受限玻爾茲曼機(jī),英文全稱為Restricted Boltzmann Machine,簡稱RBM;DBN表示深度置信網(wǎng)絡(luò),英文全稱為Deep Belief Network,簡稱DBN;FBank表示濾波器組;樣本FBank語音特征向量X=(x1,x2,...,xT)中,x1表示第一時(shí)刻fbank的特征序列,x2表示第二時(shí)刻fbank的特征序列,xT表示第T個(gè)時(shí)刻fbank的特征序列,由這些特征序列最終組成了語音特征向量;fbank特征是梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients)MFCC未做離散余弦變換的結(jié)果;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué),未經(jīng)哈爾濱工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910477034.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





