[發明專利]一種語音識別方法、裝置及終端設備在審
| 申請號: | 201811592002.9 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN111435592A | 公開(公告)日: | 2020-07-21 |
| 發明(設計)人: | 彭團民;陳明 | 申請(專利權)人: | TCL集團股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/16;G10L15/18;G10L15/26 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 張全文 |
| 地址: | 516006 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 方法 裝置 終端設備 | ||
本發明適用于終端設備技術領域,提供了一種語音識別方法、裝置及終端設備,通過將目標音頻數據輸入預先構造的基于神經網絡的聲學模型后,得到目標拼音序列,再將該目標拼音序列輸入預先構造的基于神經網絡的語言模型,得到目標文字序列,通過將語音識別過程拆分成兩部分,一部分為從音頻數據到拼音序列,一部分為從拼音序列到文字序列,大幅度降低了對數據量的依賴,因帶聲調的拼音一共就1400多個,常用的漢字7000多個,使得從拼音序列到文字序列的識別準確率大幅度地提高,滿足了商用級別的語音識別準確率的應用需求。
技術領域
本發明屬于終端設備技術領域,尤其涉及一種語音識別方法、裝置及終端設備。
背景技術
以混合高斯模型(GMM)、隱馬爾可夫模型(HMM),梅爾倒譜系數(MFCC)、n元詞組語言模型等為代表的傳統語音識別技術,雖然準確率已得到了較大的提高,但依然無法滿足商業級的應用需求。
近年在深度學習技術的影響下,自動語音識別技術有了一定的突破,但與傳統的語音識別系統相比,整體框架改變不大,用戶體驗依然較差。隨著移動設備的快速發展,語音識別技術作為移動設備的基礎應用,在精準、快速、易實現等方面還待進一步提高,以給用戶提供更友好的體驗。
發明內容
有鑒于此,本發明實施例提供了一種語音識別方法、裝置及終端設備,以解決現有語音識別的準確率無法滿足商業級的應用需求的問題。
本發明實施例的第一方面提供了一種語音識別方法,包括:
將目標音頻數據輸入預先構造的基于神經網絡的聲學模型,得到目標拼音序列;
將所述目標拼音序列輸入預先構造的基于神經網絡的語言模型,得到目標文字序列。
本發明實施例的第二方面提供了一種語音識別裝置,包括:
目標拼音序列識別單元,用于將目標音頻數據輸入預先構造的基于神經網絡的聲學模型,得到目標拼音序列;
目標文字序列識別單元,用于將所述目標拼音序列輸入預先構造的基于神經網絡的語言模型,得到目標文字序列。
本發明實施例的第三方面提供了一種終端設備,包括:
存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其中,所述處理器執行所述計算機程序時實現本發明實施例的第一方面提供的語音識別方法的步驟。
其中,所述計算機程序包括:
目標拼音序列識別單元,用于將目標音頻數據輸入預先構造的基于神經網絡的聲學模型,得到目標拼音序列;
目標文字序列識別單元,用于將所述目標拼音序列輸入預先構造的基于神經網絡的語言模型,得到目標文字序列。
本發明實施例的第四方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其中,所述計算機程序被處理器執行時實現本發明實施例的第一方面提供的語音識別方法的步驟。
其中,所述計算機程序包括:
目標拼音序列識別單元,用于將目標音頻數據輸入預先構造的基于神經網絡的聲學模型,得到目標拼音序列;
目標文字序列識別單元,用于將所述目標拼音序列輸入預先構造的基于神經網絡的語言模型,得到目標文字序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于TCL集團股份有限公司,未經TCL集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811592002.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多肽組合物及其在癌癥免疫治療中的用途
- 下一篇:智慧設備





