[發明專利]一種基于語音識別的視頻播放控制方法和系統有效
| 申請號: | 201210025924.8 | 申請日: | 2012-02-07 |
| 公開(公告)號: | CN102568478A | 公開(公告)日: | 2012-07-11 |
| 發明(設計)人: | 吳昊宇;鄧龍;姚鍵;邱丹;潘柏宇;盧述奇;劉睿姝 | 申請(專利權)人: | 合一網絡技術(北京)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/06;H04N21/432 |
| 代理公司: | 北京德和衡律師事務所 11405 | 代理人: | 姚克楓 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語音 識別 視頻 播放 控制 方法 系統 | ||
1.一種基于語音識別的視頻控制方法,包括:
對用戶的語音進行訓練提取語音特征并保存在語音特征庫中;
接收用戶的語音控制命令,與所述保存的用戶語音特征進行對比;
其中,當該用戶的語音特征與服務器中的用戶語音特征相匹配后,提取該語音控制命令并基于該語音控制命令進行視頻播放的控制。
2.根據權利要求1所述的基于語音識別的視頻控制方法,其特征在于,所述對用戶語音進行訓練提取語音特征并保存在語音特征庫中,具體包括:
計算用戶的語音的聲學參數,提取出能夠反映語音信號特征的關鍵特征參數并進行降維;
獲取用戶輸入的若干次控制命令的訓練語音;
經過預處理和語音特征后,得到特定用戶的語音特征矢量參數并存儲在網絡服務器中的語音特征庫中。
3.根據權利要求2所述的基于語音識別的視頻控制方法,其特征在于,所述關鍵特征參數采用MFCC參數。
4.根據權利要求1~3任一所述的基于語音識別的視頻控制方法,其特征在于,所述接收用戶的語音控制命令,與所述保存的用戶語音特征進行對比,具體包括:
將用戶后續輸入的語音控制命令與語音特征庫中存儲的中各指令語音特征進行相似性度量,判斷用戶的語音控制命令是否匹配語音特征庫的特征。
5.根據權利要求4所述的基于語音識別的視頻控制方法,其特征在于,所述視頻控制方法基于FLASH播放器,其中,還包括:
在10秒鐘完成對應的用戶語音控制命令的識別步驟,在返回成功以后進行相應的視頻控制動作。
6.一種基于語音識別的視頻控制系統,包括:
語音特征訓練單元,用于對用戶的語音進行訓練提取語音特征并保存在語音特征庫中;
語音特征識別單元,用于接收用戶的語音控制命令,與所述保存的用戶語音特征進行對比;
視頻控制單元,用于當該用戶的語音特征與服務器中的用戶語音特征相匹配后,提取該語音控制命令并基于該語音控制命令進行視頻播放的控制。
7.根據權利要求6所述的基于語音識別的視頻控制系統,其特征在于,所述語音特征訓練單元,具體包括:
特征參數提取子單元,用于計算用戶的語音的聲學參數,提取出能夠反映語音信號特征的關鍵特征參數并進行降維;
特征參數訓練子單元,用于獲取用戶輸入的若干次控制命令的訓練語音;經過預處理和語音特征后,得到特定用戶的語音特征矢量參數;
發送子單元,用于將上述語音特征矢量參數存儲在網絡服務器中的語音特征庫中。
8.根據權利要求7所述的基于語音識別的視頻控制系統,其特征在于,所述關鍵特征參數采用MFCC參數。
9.根據權利要求6~8任一所述的基于語音識別的視頻控制系統,其特征在于,所述語音特征識別單元,具體包括:
對比子單元,用于將用戶后續輸入的語音控制命令與語音特征庫中存儲的中各指令語音特征進行相似性度量,判斷用戶的語音控制命令是否匹配語音特征庫的特征。
10.根據權利要求9所述的基于語音識別的視頻控制系統,其特征在于,所述視頻控制單元,還包括:
FLASH播放器子單元;
播放器控制子單元,用于在10秒鐘完成對應的用戶語音控制命令的識別,在返回成功以后進行相應的視頻控制動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合一網絡技術(北京)有限公司,未經合一網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210025924.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:助動器的控制系統
- 下一篇:基于相關向量機的高精度風電場功率區間預測方法





