[發明專利]一種基于語音識別的視頻播放控制方法和系統有效

申請號：	201210025924.8	申請日：	2012-02-07
公開（公告）號：	CN102568478A	公開（公告）日：	2012-07-11
發明（設計）人：	吳昊宇;鄧龍;姚鍵;邱丹;潘柏宇;盧述奇;劉睿姝	申請（專利權）人：	合一網絡技術（北京）有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/06;H04N21/432
代理公司：	北京德和衡律師事務所 11405	代理人：	姚克楓
地址：	100080 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語音識別視頻播放控制方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及一種視頻控制方法，尤其涉及一種基于語音識別的視頻播放控制方法，屬于語音識別領域。

背景技術

目前，計算機語音識別的任務是讓計算機能夠聽懂人類說話的語句或者命令，并做出相應的動作。

其中，從上世紀70年代開始，計算機語音識別技術在研究上取得了突破性的進展。現在計算機語音識別技術在各個領域都有廣泛的應用，比如語音識別撥號，語音搜索，語音控制等。但是現有的計算機語音識別系統都存在一些問題。由于計算機語音識別需要進行大量的計算，所以現有的計算機語音識別計算基本上都是應用于單機的計算，或者需要下載并且安裝特定的軟件才能進行語音識別的任務，沒有和互聯網技術很好的結合。操作系統自帶的語音識別系統只能完成特定的簡單任務，與別的程序，或者與互聯網應用沒有連接，已經不能適應當今互聯網的快速發展的需求。

由于人類的語言多種多樣，而且同一個詞的不同人的發音也不同，計算機語音識別從對人的語音的依賴程度上，按照聲學模型建立的方式進行劃分，可以分為特定人識別和非特定人語音識別系統。

發明內容

本發明針對現有技術的缺點，提供了一種基于語音識別的視頻播放控制方法，該方法能夠具有較靈活的視頻控制效果。此外，本發明還公開了一種基于語音識別的視頻播放控制系統。

根據本發明的第一目的，本發明提供了一種基于語音識別的視頻播放控制方法，包括：

對用戶的語音進行訓練提取語音特征并保存在語音特征庫中；

接收用戶的語音控制命令，與所述保存的用戶語音特征進行對比；

其中，當該用戶的語音特征與服務器中的用戶語音特征相匹配后，提取該語音控制命令并基于該語音控制命令進行視頻播放的控制。

進一步地，優選的方法是，所述對用戶語音進行訓練提取語音特征并保存在語音特征庫中，具體包括：

計算用戶的語音的聲學參數，提取出能夠反映語音信號特征的關鍵特征參數并進行降維；

獲取用戶輸入的若干次控制命令的訓練語音；

經過預處理和語音特征后，得到特定用戶的語音特征矢量參數并存儲在網絡服務器中的語音特征庫中。

進一步地，優選的方法是，所述關鍵特征參數采用MFCC參數。

進一步地，優選的方法是，所述接收用戶的語音控制命令，與所述保存的用戶語音特征進行對比，具體包括：

將用戶后續輸入的語音控制命令與服務器中存儲的中各指令語音特征進行相似性度量，判斷用戶的語音控制命令是否匹配語音特征庫的特征。

進一步地，優選的方法是，所述視頻控制方法基于FLASH播旋器，其中，還包括：

在10秒鐘完成對應的用戶語音控制命令的識別步驟，在返回成功以后進行相應的視頻控制動作。

本發明采取了上述技術方案以后，克服了現有技術中語音識別都是應用于單機或者必須下載特征的軟件的技術缺點；并且，由于本申請的語音特征是基于特定人而保存在語音特征庫中，能夠實現基于特征人的語音識別的效果，并且，該種方法進行語音識別和控制，其準確率較高。

根據本發明的又一目的，本發明提供了一種基于語音識別的視頻播放控制系統，包括：

語音特征訓練單元，用于對用戶的語音進行訓練提取語音特征并保存在語音特征庫中；

語音特征識別單元，用于接收用戶的語音控制命令，與所述保存的用戶語音特征進行對比；

視頻控制單元，用于當該用戶的語音特征與服務器中的用戶語音特征相匹配后，提取該語音控制命令并基于該語音控制命令進行視頻播放的控制。

進一步地，優選的是，所述語音特征訓練單元，具體包括：

特征參數提取子單元，用于計算用戶的語音的聲學參數，提取出能夠反映語音信號特征的關鍵特征參數并進行降維；

特征參數訓練子單元，用于獲取用戶輸入的若干次控制命令的訓練語音；經過預處理和語音特征后，得到特定用戶的語音特征矢量參數；

發送子單元，用于將上述語音特征矢量參數存儲在網絡服務器中的語音特征庫中。

進一步地，優選的是，所述關鍵特征參數采用MFCC參數。

進一步地，優選的是，所述語音特征識別單元，具體包括：

對比子單元，用于將用戶后續輸入的語音控制命令與服務器中存儲的中各指令語音特征進行相似性度量，判斷用戶的語音控制命令是否匹配語音特征庫的特征。

進一步地，優選的是，所述視頻控制單元，還包括：

FLASH播放器子單元；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于合一網絡技術（北京）有限公司，未經合一網絡技術（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210025924.8/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：助動器的控制系統
下一篇：基于相關向量機的高精度風電場功率區間預測方法

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】