[發明專利]視頻語音識別方法及系統在審

申請號：	201810779665.5	申請日：	2018-07-16
公開（公告）號：	CN109036387A	公開（公告）日：	2018-12-18
發明（設計）人：	徐曉娜;裴歡歡;王進貴;趙悅	申請（專利權）人：	中央民族大學
主分類號：	G10L15/06	分類號：	G10L15/06
代理公司：	北京卓唐知識產權代理有限公司 11541	代理人：	唐海力;李志剛
地址：	100081 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音識別音頻信息特征向量語音識別結果模型訓練視頻語音特征提取視頻語音申請
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音識別方法，從視頻文件中提取音頻信息，其特征在于，所述方法包括：

對所述音頻信息進行特征提取，得到所述音頻信息的第一特征向量；

根據所述第一特征向量對語音識別模型進行模型訓練，得到訓練后的所述第一語音識別模型；

根據所述第一語音識別模型對所述音頻信息進行語音識別，得到第一語音識別結果。

2.根據權利要求1所述的語音識別方法，其特征在于，所述對所述音頻信息進行特征提取，得到所述音頻信息的第一特征向量包括：

提取所述音頻信息中每一幀的頻譜系數，得到第一特征參數序列。

3.根據權利要求2所述的語音識別方法，其特征在于，所述根據所述第一特征向量對語音識別模型進行模型訓練，得到訓練后的所述第一語音識別模型包括：

根據所述第一特征參數序列，對預設隱馬爾可夫語音模型進行模型訓練，得到訓練后的所述第一語音識別模型。

4.根據權利要求1所述的語音識別方法，其特征在于，所述根據所述第一語音識別模型對所述音頻信息進行語音識別，得到第一語音識別結果包括：

將所述第一語音識別模型與預設聲學模型進行模式匹配，得到第一聲學模型序列；

根據所述第一聲學模式序列對所述音頻信息進行語音識別，得到第一識別文字信息。

5.根據權利要求1所述的語音識別方法，其特征在于，所述對所述音頻信息進行特征提取，得到所述音頻信息的第一特征向量之前包括：

將所述音頻信息按照預設規則切割成至少一個音頻文件，得到第一音頻文件。

6.根據權利要求1所述的語音識別方法，其特征在于，所述對所述音頻信息進行特征提取，得到所述音頻信息的第一特征向量之前包括：

對所述音頻信息進行抗混疊濾波處理，得到經過處理后的第二音頻文件。

7.根據權利要求1所述的語音識別方法，其特征在于，所述對所述音頻信息進行特征提取，得到所述音頻信息的第一特征向量之前包括：

對所述音頻信息進行預加重處理，得到經過處理后的第三音頻文件。

8.根據權利要求1所述的語音識別方法，其特征在于，所述對所述音頻信息進行特征提取，得到所述音頻信息的第一特征向量之前包括：

對所述音頻信息進行端點檢測處理，得到經過處理后的第四音頻文件。

9.一種語音識別系統，從視頻文件中提取音頻信息，其特征在于，包括：

提取單元，用于對所述音頻信息進行特征提取，得到所述音頻信息的第一特征向量；

訓練單元，用于根據所述第一特征向量對語音識別模型進行模型訓練，得到訓練后的所述第一語音識別模型；

識別單元，用于根據所述第一語音識別模型對所述音頻信息進行語音識別，得到第一語音識別結果。

10.根據權利要求9所述的語音識別系統，其特征在于，所述識別單元包括：

模式匹配模塊，用于將所述第一語音識別模型與預設聲學模型進行模式匹配，得到第一聲學模型序列；

語音識別模塊，用于根據所述第一聲學模式序列對所述音頻信息進行語音識別，得到第一識別文字信息。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中央民族大學，未經中央民族大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810779665.5/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】