[發明專利]基于語音識別的多媒體資源處理方法及其在線教學系統有效

申請號：	200810068253.7	申請日：	2008-07-01
公開（公告）號：	CN101382937A	公開（公告）日：	2009-03-11
發明（設計）人：	王嵐;邵陽	申請（專利權）人：	深圳先進技術研究院
主分類號：	G06F17/30	分類號：	G06F17/30;G09B5/06;G09B5/00;G10L15/00;G10L15/08;G10L15/06
代理公司：	深圳市君勝知識產權代理事務所	代理人：	王永文
地址：	518067廣東省深圳市南山區蛇***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于語音識別多媒體資源處理方法及其在線教學系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于語音識別的多媒體資源處理方法，其包括以下步驟：

A、對音視頻進行同步采集，并進行數據處理，將其中的音頻文件處理成為可語音識別的格式；

B、對音頻文件進行語音識別，生成腳本文件，并與視頻文件進行中文字幕的自動生成與同步；所述對音頻文件進行語音識別，生成腳本文件的步驟具體包括：

B1、對輸入的音頻進行語音信號特征提取；

B2、使用語音分段模塊根據語音信號的波形特征和能量特征，將輸入的音頻信號進行分類與分割，并送入解碼器進行語音識別；

B3、將含有語音內容文本信息和時間信息的內容形成腳本文件；

C、對視頻文件進行內容索引，并對所述音頻文件的腳本文件進行基于內容的自動故事分段，將所述腳本文件和視頻文件進行匹配標注后存儲到視頻數據庫中；所述的步驟C進一步包括：

建立所述腳本文件中的關鍵信息與一演示文稿中文本信息的關聯和匹配，確定各頁演示文稿的播放時間，用于實現演示文稿與學術報告和教學課程視頻的自動同步播放。

2.根據權利要求1所述的方法，其特征在于，所述步驟C還包括：

C1、對所述腳本文件抽取多層次的詞匯信息進行自動故事分段；

C2、將所述腳本文件以XML節點形式存入XML數據庫，對相應的教學課程視頻內容建立XML索引和標識集合，用于基于內容的多媒體檢索和定位。

3.根據權利要求2所述的方法，其特征在于，所述步驟C2還包括：通過使用倒排索引以及XQuery語法的查詢，從所述XML數據庫中檢索得到結果，并對相應的視頻文件進行操作。

4.根據權利要求1所述的方法，其特征在于，所述步驟B2還包括：

所述解碼器在語音識別中所使用的聲學模型，為經過聚類的三音素模型，語言模型為基于詞的三元和四元語言模型。

5.根據權利要求1所述的方法，其特征在于，所述步驟B1中還包括：所提取的語音信號特征為帶有音調的感知線性預測特征。

6.根據權利要求1所述的方法，其特征在于，語音識別包括中文語音識別和英文語音識別，當輸入的語音為英文時，所述英文語音識別還包括機器翻譯過程，具體包括：

B21、訓練時將英文源文本和對應的中文目標文本進行短語層次的分割，并進行雙語文本的規整；

B22、對中文目標文本進行建模，形成語言模型；

B23、結合源短語到目標短語的概率，雙語規整概率，以及語言模型概率，利用有限狀態機實現對源文本的搜索，得到翻譯文本。

7.根據權利要求1所述的方法，其特征在于，對所述腳本文件還提供一字幕編輯輔助軟件，用于用戶修改自動生成字幕中的錯誤，其包括：修改、添加、刪除字幕內容中的錯誤信息；修改、添加、刪除字幕時間信息中的錯誤信息；以及對時間進行修正。

8.一種基于語音識別的多媒體資源處理的系統，其包括一數據采集模塊，一數據處理模塊，至少一語音識別模塊，所述語音識別模塊包括語音分段模塊和解碼器；其特征在于，還包括中文字幕自動生成與同步模塊、基于內容的自動故事分段處理模塊、基于內容的多媒體信息檢索模塊和演示文稿自動同步模塊；

所述數據采集模塊用于同步采集音視頻；

所述數據處理模塊用于將所述數據采集模塊采集的視頻和音頻文件進行數據處理，將其中的音頻文件處理成為可語音識別的格式，向所述識別模塊提供標準的輸入音頻文件；

所述語音識別模塊用于對輸入的音頻進行語音信號特征提取，使用語音分段模塊根據語音信號的波形特征和能量特征，將輸入的音頻信號進行分類與分割，送入解碼器進行語音識別，并將含有語音內容文本信息和時間信息的內容形成腳本文件；

一中文字幕自動生成與同步模塊，用于對所述音視頻文件進行同步標注，并存儲到所述視頻數據庫；

一基于內容的自動故事分段處理模塊，用于對所述音頻文件的腳本文件進行基于內容的自動故事分段，將所述腳本文件和視頻文件進行匹配標注；

一基于內容的多媒體信息檢索模塊，用于對經過標注的視頻數據庫進行檢索使用；

一演示文稿自動同步模塊，用于建立所述腳本文件中的關鍵信息與一演示文稿中文本信息的關聯和匹配，確定各頁演示文稿的播放時間，用于實現演示文稿與學術報告和教學課程視頻的自動同步播放。

9.根據權利要求8所述的系統，其特征在于，所述語音識別模塊包括一中文語音識別系統和一英文語音識別系統，所述英文語音識別系統還連接一機器翻譯模塊，用于自動生成中文字幕。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院，未經深圳先進技術研究院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200810068253.7/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】