[發(fā)明專利]歸一化聲學模型的輸入數(shù)據(jù)的設備和方法和語音識別設備有效

申請?zhí)枺?/td>	201610900674.6	申請日：	2016-10-17
公開（公告）號：	CN106601240B	公開（公告）日：	2021-10-01
發(fā)明（設計）人：	宋仁哲;崔榮相;羅輝棟	申請（專利權(quán)）人：	三星電子株式會社
主分類號：	G10L15/14	分類號：	G10L15/14;G10L15/16
代理公司：	北京銘碩知識產(chǎn)權(quán)代理有限公司 11286	代理人：	張川緒;王兆賡
地址：	韓國京畿***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	歸一化聲學模型輸入數(shù)據(jù) 設備方法語音識別
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種用于歸一化聲學模型的輸入數(shù)據(jù)的設備，所述設備包括：

窗提取器，被配置為：從將被識別的語音的幀數(shù)據(jù)，提取將被輸入到聲學模型的幀數(shù)據(jù)的窗；

歸一化器，被配置為：以提取的窗為單位，歸一化將被輸入到聲學模型的幀數(shù)據(jù)，

其中，歸一化器還被配置為：考慮屬于當前窗的之前窗的幀，來歸一化屬于當前窗的幀。

2.如權(quán)利要求1所述的設備，其中，窗提取器還被配置為：在將被識別的語音的幀數(shù)據(jù)正被輸入的同時，以將被識別的語音的幀數(shù)據(jù)的預定數(shù)量的幀為單位，連續(xù)地提取窗。

3.如權(quán)利要求1所述的設備，其中，歸一化器還被配置為：將屬于當前窗的幀和添加到當前窗的兩側(cè)的填充幀一起進行歸一化。

4.如權(quán)利要求1所述的設備，其中，歸一化器還被配置為：響應于屬于當前窗的幀和屬于之前窗的幀的總數(shù)不足以進行語音識別，考慮屬于之前窗的幀和訓練數(shù)據(jù)的幀，來歸一化屬于當前窗的幀。

5.如權(quán)利要求4所述的設備，其中，歸一化器還被配置為：響應于幀的總數(shù)小于參考值，從訓練數(shù)據(jù)獲取與參考值和幀的總數(shù)之間的差對應的數(shù)量的幀，作為考慮的訓練數(shù)據(jù)的幀。

6.如權(quán)利要求1所述的設備，其中，歸一化器還被配置為：歸一化屬于提取的窗的幀數(shù)據(jù)，使得屬于提取的窗的幀數(shù)據(jù)具有平均值0和標準差1。

7.一種歸一化聲學模型的輸入數(shù)據(jù)的方法，所述方法包括：

從將被識別的語音的幀數(shù)據(jù)，提取將被輸入到聲學模型的幀數(shù)據(jù)的窗；

以提取的窗為單位，歸一化將被輸入到聲學模型的幀數(shù)據(jù)，

其中，歸一化幀數(shù)據(jù)的步驟包括：考慮屬于當前窗的之前窗的幀，來歸一化屬于當前窗的幀。

8.如權(quán)利要求7所述的方法，其中，提取窗的步驟包括：在將被識別的語音的幀數(shù)據(jù)正被輸入的同時，以將被識別的語音的幀數(shù)據(jù)的預定數(shù)量的幀為單位，連續(xù)地提取窗。

9.如權(quán)利要求7所述的方法，其中，歸一化幀數(shù)據(jù)的步驟包括：將屬于當前窗的幀和添加到當前窗的兩側(cè)的填充幀一起進行歸一化。

10.如權(quán)利要求7所述的方法，其中，歸一化幀數(shù)據(jù)的步驟包括：響應于屬于當前窗的幀和屬于之前窗的幀的總數(shù)不足以進行語音識別，考慮屬于之前窗的幀和訓練數(shù)據(jù)的幀，來歸一化屬于當前窗的幀。

11.如權(quán)利要求10所述的方法，其中，歸一化幀數(shù)據(jù)的步驟包括：

響應于當前窗被提取，將屬于當前窗和之前窗的幀的總數(shù)與參考值進行比較；

響應于幀的總數(shù)小于參考值，從訓練數(shù)據(jù)獲取與參考值和幀的總數(shù)之間的差對應的數(shù)量的幀，作為考慮的訓練數(shù)據(jù)的幀。

12.如權(quán)利要求7所述的方法，其中，歸一化幀數(shù)據(jù)的步驟包括：歸一化屬于提取的窗的幀數(shù)據(jù)，使得屬于提取的窗的幀數(shù)據(jù)具有平均值0和標準差1。

13.一種語音識別設備，包括：

預處理器，被配置為：

從將被識別的語音的幀數(shù)據(jù)提取將被輸入到聲學模型的幀數(shù)據(jù)的窗，

以提取的窗為單位歸一化將被輸入到聲學模型的幀數(shù)據(jù)；

聲學分數(shù)計算器，被配置為：使用基于深度神經(jīng)網(wǎng)絡的聲學模型，以歸一化的窗為單位，通過將歸一化的幀數(shù)據(jù)輸入到所述聲學模型中來計算聲學分數(shù)；

解釋器，被配置為：

解釋以歸一化的窗為單位計算的聲學分數(shù)，

基于解釋的聲學分數(shù)來輸出將被識別的語音的識別結(jié)果，

其中，預處理器還被配置為：考慮屬于當前窗的之前窗的幀，來歸一化屬于當前窗的幀。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于三星電子株式會社，未經(jīng)三星電子株式會社許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610900674.6/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓練語音識別系統(tǒng)，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】