[發明專利]語音識別方法和裝置在審
| 申請號: | 201610847843.4 | 申請日: | 2016-09-23 |
| 公開(公告)號: | CN107871497A | 公開(公告)日: | 2018-04-03 |
| 發明(設計)人: | 劉孟竹;唐青松;張祥德 | 申請(專利權)人: | 北京眼神科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L17/04;G10L17/18 |
| 代理公司: | 北京康信知識產權代理有限責任公司11240 | 代理人: | 韓建偉,李志剛 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 | ||
技術領域
本發明涉及語音識別領域,具體而言,涉及一種語音識別方法和裝置。
背景技術
語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本的技術。傳統的語音識別技術對人工選擇的特征依賴性強,并且準確率低。將深度學習(Deep Learning)技術應用在語音識別領域,可以模仿大腦對語音信號學習、識別的模式,能夠大幅度提高語音識別的準確性。
將Deep Learning用于語音識別,目前己經獲得了長足的進步。以下介紹幾種Deep Networks:
深度神經網絡(Deep Neural Networks,簡稱DNNs):該網絡提取出的特征有較強的區分性,因此訓練出的模型具有較強的區分能力,這種網絡通常采用深度信念網絡(Deep Belief Network,簡稱DBN)用作預訓練過程,采用DNN-HMM混合網絡訓練聲學模型,在大詞匯量語音識別系統中有較廣泛的應用。
卷積神經網絡(Convolutional Neural Networks,簡稱CNNs):相比于DNNs,引入了卷積和池化的概念。通過卷積實現對語音特征局部信息的抽取,再通過池化加強模型對特征的魯棒性。在明顯降低模型規模的同時,識別性能更好,且泛化能力更強。
遞歸神經網絡(Recurrent Neural Networks,簡稱RNN):目前在語音識別領域最常用的深度網絡模型是RNN,它是一種序列模型,它在神經網絡的基礎上,考慮相鄰語音幀的隱含層單元之間的連接關系,通過按時間反向傳播誤差調整網絡參數訓練網絡。RNN的分布式隱藏狀態能有效存儲之前的信息,并且作為非線性動態系統能夠使其隱藏層單元以一種復雜的方式更新,結合了這兩種特性,使它能夠通過遞歸層識別潛在的時間依賴關系,進行語音識別的任務。
聯結時間分類(Connectionist Temporal Classification,簡稱CTC):是一種對齊模型,能夠將深度網絡輸出與標簽文本對齊,計算所有可能路徑的概率和作為整個句子的概率,使用CTC能夠使得我們不需要對樣本進行預先的分割或者后處理,大幅提高了效率。
但是,現有技術中的語音識別方法仍有一定的問題:
(1)DNNs的缺點為:DNNs方法假設各語音幀獨立,沒有考慮幀與幀之間的相關性,并且一般來說隱層需要較多的神經元,在訓練后期梯度彌散現象會很嚴重,并且只能與其他模型結合才能計算序列的誤差。
(2)CNNs的缺點為:單獨的CNNs只能處理孤立詞的語音識別,所以使用CNNs處理連續語音需要對語音事先進行分割,非常費時和枯燥。CNNs也可與其他模型結合來處理連續語音,但無疑增加了參數的數量,并且人工調整模型參數也很耗時。
(3)RNN的缺點為:由于需要記憶大量信息,訓練難度較大,計算成本大,識別進程緩慢,而且其遞歸結構在誤差反傳時易出現梯度爆炸和梯度消失的問題,導致訓練很難進行下去。
(4)CTC的缺點為:訓練時只考慮聲學信息的影響,破壞了RNN訓練出來的隱含的語言模型,帶來的危害是基于詞的錯誤率和基于音素的錯誤率不能同步降低,增大了訓練難度。
由上述分析可知,相關技術中均為對聲學模型單獨訓練,而聲學模型學習到的隱含語義向量會破壞真正的語義向量,從而導致訓練過程中損失函數與錯誤率不能同步降低,使得訓練的收斂速度較慢。
針對相關技術中的訓練語音識別模型的收斂速度較慢的問題,目前尚未提出有效的解決方案。
發明內容
本發明的主要目的在于提供一種語音識別方法和裝置,以解決相關技術中的訓練語音識別模型的收斂速度較慢的問題。
為了實現上述目的,根據本發明的一個方面,提供了一種語音識別方法。該方法包括:確定訓練語音信號和與訓練語音信號對應的語義標簽;將訓練語音信號輸入第一神經網絡模型得到語音特征向量;將語義標簽輸入第二神經網絡模型得到語義特征向量;根據語音特征向量和語義特征向量訓練第一神經網絡模型中目標參數的參數值;根據訓練后的第一神經網絡模型識別目標語音信號,其中,在訓練后的第一神經網絡模型中目標參數的值為訓練后的參數值。
進一步地,根據語音特征向量和語義特征向量訓練第一神經網絡模型中目標參數的參數值包括:通過對齊網絡模型對齊語音特征向量和語義特征向量,得到訓練結果;通過預設算法計算訓練結果所表示的語義與語義標簽所表示的語義的誤差;根據誤差調整第一神經網絡模型中目標參數的參數值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京眼神科技有限公司,未經北京眼神科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610847843.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音識別方法和裝置
- 下一篇:使用智能語音識別的自動化軟件執行方法





