[發明專利]歸一化聲學模型的輸入數據的設備和方法和語音識別設備有效

申請號：	201610900674.6	申請日：	2016-10-17
公開（公告）號：	CN106601240B	公開（公告）日：	2021-10-01
發明（設計）人：	宋仁哲;崔榮相;羅輝棟	申請（專利權）人：	三星電子株式會社
主分類號：	G10L15/14	分類號：	G10L15/14;G10L15/16
代理公司：	北京銘碩知識產權代理有限公司 11286	代理人：	張川緒;王兆賡
地址：	韓國京畿***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	歸一化聲學模型輸入數據設備方法語音識別
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

提供歸一化聲學模型的輸入數據的設備和方法和語音識別設備。一種用于歸一化聲學模型的輸入數據的設備包括：窗提取器，被配置為從將被識別的語音的幀數據，提取將被輸入到聲學模型的幀數據的窗；歸一化器，被配置為以提取的窗為單位歸一化將被輸入到聲學模型的幀數據。

本申請要求于2015年10月16日提交到韓國知識產權局的第10-2105-0144947號韓國專利申請的權益，該申請的全部公開出于所有目的通過引用包含于此。

技術領域

下面的描述涉及在語音識別中歸一化聲學模型的用于逐步解碼的輸入數據的技術。

背景技術

通常，語音識別引擎包括聲學模型、語言模型和解碼器。聲學模型針對輸入的語音信號的每一幀計算特定發音的概率，語言模型提供關于特定的單詞或句子使用的頻率的信息。解碼器基于由聲學模型和語言模型提供的信息來計算哪個單詞或句子與輸入語音相似，并且輸出計算結果。高斯混合模型(GMM)聲學模型已被普遍使用，并且隨著深度神經網絡(DNN)聲學模型的出現，語音識別性能近來正在提高。雙向循環深度神經網絡(bidirectional recurrent deep neural network，BRDNN)考慮雙向信息(即，之前和后續幀信息)，針對語音的每一幀來計算特定發音的概率，并因此接收全部語音。當在模型訓練期間輸入的語音信號的每一幀被表示為N維矢量時，BRDNN聲學模型執行歸一化，使得矢量的每一維的值在特定范圍內。在歸一化可基于全部訓練數據或每一話語被總體執行的同時，BRDNN聲學模型在話語的單元中執行歸一化。

發明內容

提供本發明內容從而以簡化的形式介紹將在下面的具體實施方式中被進一步描述的構思的選擇。本發明內容不意在標識所要求保護主題的關鍵特征或必要特征，也不意在作為幫助確定所要求保護的主題的范圍而被使用。

在一個總體方面中，一種用于歸一化聲學模型的輸入數據的設備包括：窗提取器，被配置為從將被識別的語音的幀數據提取將被輸入到聲學模型的幀數據的窗；歸一化器，被配置為以提取的窗為單位歸一化將被輸入到聲學模型的幀數據。

窗提取器還可被配置為：在將被識別的語音的幀數據正被輸入的同時，以將被識別的語音的幀數據的預定數量的幀為單位，連續地提取窗。

歸一化器還可被配置為：將屬于當前窗的幀和添加到當前窗的兩側的填充幀一起進行歸一化。

歸一化器還可被配置為：考慮屬于當前窗的之前窗的幀，來歸一化屬于當前窗的幀。

歸一化器還可被配置為：響應于屬于當前窗的幀和屬于之前窗的幀的總數不足以進行語音識別，考慮屬于之前窗的幀和訓練數據的幀，來歸一化屬于當前窗的幀。

歸一化器還可被配置為：響應于幀的總數小于參考值，從訓練數據獲取與幀的總數與參考值之間的差對應的數量的幀。

歸一化器還可被配置為：歸一化屬于提取的窗的幀數據，使得屬于提取的窗的幀數據具有平均值0和標準差1。

在另一總體方面中，一種歸一化聲學模型的輸入數據的方法包括：從將被識別的語音的幀數據提取將被輸入到聲學模型的幀數據的窗；以提取的窗為單位，歸一化將被輸入到聲學模型的幀數據。

提取窗的步驟可包括：在將被識別的語音的幀數據正被輸入的同時，以將被識別的語音的幀數據的預定數量的幀為單位，連續地提取窗。

歸一化幀數據的步驟可包括：將屬于當前窗的幀和添加到當前窗的兩側的填充幀一起進行歸一化。