[發明專利]基于設備工作狀態切換的多神經網絡模型語音識別方法在審
| 申請號: | 201810705470.6 | 申請日: | 2018-07-02 |
| 公開(公告)號: | CN110738983A | 公開(公告)日: | 2020-01-31 |
| 發明(設計)人: | 何云鵬 | 申請(專利權)人: | 成都啟英泰倫科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610041 四川省成都市高新*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經網絡模型 語音識別 模型訓練過程 專用神經網絡 工作狀態檢測 設備工作狀態 通用網絡模型 神經網模型 關機狀態 過程計算 結果選擇 設備噪聲 識別性能 識別裝置 終端語音 檢測 | ||
基于設備工作狀態切換的多神經網絡模型語音識別方法,包括專用神經網絡模型訓練過程,所述專用神經網絡模型訓練過程針對設備的特定工作狀態進行訓練;所述識別方法還包括識別裝置的工作狀態檢測步驟和語音識別步驟,語音識別步驟中根據檢測步驟的結果選擇不同的神經網絡模型。本發明在設備的不同工作狀態下,導入其對應的不同的神經網模型參數進行計算,在關機狀態或設備噪聲不強的情況下采用通用網絡模型,在其他工作狀態下采用該狀態適應的神經網絡模型進行識別過程計算,大幅提升了終端語音識別性能。
技術領域
本發明屬于人工智能技術領域,涉及語音識別技術,具體涉及一種基于設備工作狀態切換的多神經網絡模型語音識別方法。
背景技術
近年來,以人工神經網絡(ANN)為核心的人工智能算法在各行業,各設備上應用已經成為趨勢。其中人類的語言語音以其自然方便的特性必將成為人與設備終端最主流的交互方式。隨著人工智能語音識別算法應用推廣的深入進行,人們發現僅僅云端智能存在著響應慢,依賴網絡,以及隱私安全隱患,因此在設備端的人工智能邊緣計算的重要性成為共識。以啟英泰倫為代表的企業率先在行業推出集成人工神經網絡處理器(NPU)核的智能語音芯片,有效提高了設備終端語音識別的準確率,響應速度,降低了功耗,擺脫了網絡依賴,為人工智能語音識別在本地終端上普及應用打開了方便之門。
目前最通常的幾種人工神經網絡模型為深度神經網絡(DNN)、卷積神經網絡(CNN)、遞歸神經網絡(RNN)及長短時記憶模型神經網絡(LSTM) 等。尤其是是DNN和CNN已經廣泛應用在語音識別和圖像識別中。各種神經網絡盡管有細節不同,但主要結構和運算單元基本相同,主要結構包括輸入層,中間層(或稱隱含層)及輸出層。每層包含數百到數千以上的神經元計算,每個神經元節點的計算主要以上一層神經元輸出或同一層神經元上一周期的輸出作為輸入,并和相對應的神經網絡參數相乘并累加為主。不失一般性,以全連接的深度神經網絡為例來說明神經網絡模型參數,其主要計算過程可以表述為以下公式:
輸入層計算:i=1,2,…..I;代表總汁為I 個特征輸入,的第i個輸入語音特征Yi其他各層的計算為:
其中,Yi是輸入層第i個語音特征信號輸入;代表輸入層第j1個神經元節點的計算輸出;表示輸入層第j1個神經元節點乘累加計算過程中Yi輸入的權重參數,是輸入層第j1個神經元節點計算過程中的偏置參數; f()是激活函數;所有上一層(k-1層)神經元輸出節點是下一層(k層) 神經元節點輸出的輸入;分別是第k層第jk神經元的神經元權重參數利偏置參數。這里以及就是所述的深度神經網絡模型參數,簡稱神經網絡模型,神經網絡模型是通過大數據訓練得到。
完整的人工智能語音識別算法分為兩個過程,一是離線的訓練過程,一是實時的識別過程。離線訓練具體的過程描述如圖1所示。
圖1是一個完整通用的離線語音訓練過程。包含了語料庫及標注,語音特征提取過程,神經網絡的前向計算,其計算結果與標注進行比對計算出誤差損失函數,根據誤差損失進行反向傳播(BP)計算,修正各層神經網絡模型參數,并重復進行神經網絡的前向計算和損失函數計算,及參數修正計算過程,直到誤差損失函數小于一個給定值,此時訓練結束,得到的網絡模型參數即為訓練的結果。
實時識別過程如圖2所示,設備終端的識別過程通常是一個實時識別過程,輸入語音為麥克風實時錄入,并進行實時的語音特征提取,ANN前向計算,ANN計算所用的網絡模型輸入為訓練過程中訓練好的網絡模型,最后進行語音搜索解碼,得到最終的語音識別識別的文本結果。其中語言模型是一個預存放的語言網絡模型庫軟件。離線訓練好的網絡模型以及與設備功能交互相關的語言模型庫軟件往往預先存放在終端設備的存儲器件中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都啟英泰倫科技有限公司,未經成都啟英泰倫科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810705470.6/2.html,轉載請聲明來源鉆瓜專利網。





