[發明專利]一種基于音頻內容檢索的多媒體資源檢索方法無效
| 申請號: | 200810062073.8 | 申請日: | 2008-05-28 |
| 公開(公告)號: | CN101281534A | 公開(公告)日: | 2008-10-08 |
| 發明(設計)人: | 葉睿智 | 申請(專利權)人: | 葉睿智 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G10L15/08;G10L15/14;G10L15/02;G10L15/06 |
| 代理公司: | 杭州求是專利事務所有限公司 | 代理人: | 張法高 |
| 地址: | 310013浙江省杭州市西湖*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 音頻 內容 檢索 多媒體 資源 方法 | ||
技術領域
本發明涉及一種基于音頻內容檢索的多媒體資源檢索方法,特別是涉及用于檢索包括視頻、音頻形式的資源,找到包含所檢索信息的資源并給出所檢索信息在資源中的定位。
背景技術
在當今數字化與網絡化時代,多媒體數據已成為互聯網信息高速公路上所傳送數據的主要部分。音頻、圖像和視頻等多媒體內容目前在互聯網中占據15%,且該數字還在飛速增長。大容量高速存儲系統為音視頻的海量存儲提供了基本保障,各行業對音視頻的使用越來越廣泛。如何從海量的音視頻信息中獲取有用的信息,即音視頻信息資源的管理和檢索顯得日益重要,音視頻已成為網絡用戶最頻繁檢索的資源之一。目前的主流搜索引擎如Google、Yahoo、Baidu等,已經較好地解決了對互聯網絡上文本內容的檢索,但在音視頻檢索方面,這些搜索引擎目前仍依靠檢索匹配多媒體資源相關的周邊文本信息(例如資源文件名、資源標記、資源介紹文本等)來實現對文本的搜索。這使得音視頻資源自身的內容沒有被很好地識別,一些缺乏明確文本描述的有用資源被搜索引擎忽略。目前,常用的信息檢索系統,例如數字圖書館系統、知識管理系統,也都面臨著多媒體資源日益成為重要信息載體但缺乏有效檢索手段的問題。解決這個問題的途徑之一,就是利用語音識別技術從音視頻資源的語音部分檢索出可用文本表達的對應信息,再通過文本檢索的方式去索引這些資源。
關鍵詞識別就是在連續的無限制的自然語音流中識別出給定的關鍵詞。它包括兩個方面的基本內容,一個是關鍵詞檢出,一個是關鍵詞確認。關鍵詞檢出是鑒別語音包含哪幾個預先輸入的關鍵詞,是一個多元判決問題。而關鍵詞確認則回答“是”還是“不是”包含這個關鍵詞,是一個兩元判決問題,本發明所述關鍵詞識別技術特制指關鍵詞檢出。
美爾倒譜系數(Mel-FrequencyCepstrumCoefficients,MFCC)建立在傅立葉和倒譜分析基礎上,反應了音頻信號的頻域特征。對短時音頻幀中的采樣點進行傅立葉變換,得到這個短時音頻幀在每個頻率上的能量大小,將整個頻率帶劃分為n個子帶,分別計算這n各子帶上的總能量,就構成了這個短時音頻幀的n個Mel系數。對提取出來的Mel系數再計算其對應的倒譜系數,就是Mel倒譜系數。倒譜分析是一種非線性信號處理技術,它是同態系統理論的基礎,是專門處理通過卷積組合在一起的信號,后來被應用到語音信號的處理中。
隱馬爾可夫(Hidden?Markov?Model,HMM)模型是一種基于轉移概率和輸出概率的隨機模型。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發聲系統狀態序列的輸出。在使用隱馬爾可夫模型識別時,為每一個說話人建立發聲模型,通過訓練得到狀態轉移概率矩陣和符號輸出概率矩陣。識別時計算未知語音在狀態轉移過程中的最大概率,根據最大概率對應的模型進行判決。對于文本無關的說話人識別一般采用各態歷經型HMM,對于與文本有關的說話人識別一般采用從左到右型HMM。HMM不需要時間歸整,節約了判決時的計算時間和存儲量。
基于隱馬爾科夫模型的關鍵詞識別進行技術是語音檢索的一個非常重要的方面,它在語音的特定內容檢索中占有重要位置,由于目前語音識別技術其魯棒性和實用性方面的限制,利用連續語音識別建立大詞匯量,任意關鍵詞的識別器并不能達到理想的結果,無法很好的滿足語音檢索方面的應用要求。而關鍵詞識別是相對可靠的技術,在語音檢索的應用中有更好的應用前景。
發明內容
本發明的目的是克服現有技術的不足,提供一種基于音頻內容檢索的多媒體資源檢索方法
包括如下步驟:
1)預處理服務器將視頻和音頻轉化為標準的待識別語音;
2)語音識別服務器將訓練語料訓練成聲學模型,并將待識別語音和聲學模型匹配得到語意文本索引;
3)索引服務器存儲和組織關鍵詞索引,并匹配檢索條件得到檢索結果。
所述的預處理服務器將視頻和音頻轉化為標準的待識別語音:視頻和音頻中帶有一段或多段講話語音,從輸入的視頻資源中采用音頻分離技術提起出音頻部分的數據,并保持了分離出來的音頻和原有視頻在時間軸方向的一致,音頻數據經過數字降噪技術處理,能量過低的部分和包含雜音信號的語音段被處理成靜音,轉化后,音頻輸出為標準的待識別語音。
所述的語音識別服務器將訓練語料訓練成聲學模型:訓練語料采用標準漢語普通話朗讀的廣播語音,訓練語料經過特征提取模塊得到語音特征,特征類型采用美爾倒譜系數,語音特征經過聲學模型訓練得到隱馬爾可夫聲學模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于葉睿智,未經葉睿智許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810062073.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:發熱體復合衛生巾及其制備與包裝方法
- 下一篇:一種文件存儲方法及裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





