[發(fā)明專利]音頻數(shù)據(jù)分析裝置和方法無效
| 申請?zhí)枺?/td> | 200810161401.X | 申請日: | 2008-09-25 |
| 公開(公告)號: | CN101685446A | 公開(公告)日: | 2010-03-31 |
| 發(fā)明(設計)人: | 劉昆;吳偉國 | 申請(專利權)人: | 索尼(中國)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G10L11/00 |
| 代理公司: | 北京康信知識產(chǎn)權代理有限責任公司 | 代理人: | 余 剛;吳孟秋 |
| 地址: | 100027北京市朝陽區(qū)東*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 數(shù)據(jù) 分析 裝置 方法 | ||
技術領域
本發(fā)明涉及音頻數(shù)據(jù)分析裝置和方法,具體來說,本發(fā)明涉及一種使用SVM方法對音頻數(shù)據(jù)進行分析的分析裝置和方法。
背景技術
當前,大量體育比賽涌入觀眾的視野。越來越多的體育視頻沖擊,使得人們對體育視頻的有效檢索和管理的要求也越來越迫切。就足球比賽來說,整場比賽時間大約為2小時,而且,有時候會在深夜進行實況直播。然而,在整個比賽時間內(nèi),足球迷們真正關心的內(nèi)容和想看的部分通常只占據(jù)節(jié)目的很小一部分。在這種情況下,球迷們期望有一種有效的內(nèi)容分析和檢索系統(tǒng)。利用這種技術,體育迷們不僅能夠有選擇地觀看比賽,而且能夠節(jié)省大量時間。
足球比賽的內(nèi)容分析是基于內(nèi)容的多媒體檢索的一個應用之一。其中,基于視頻分析的研究主要集中在提取顏色、紋理、場景、鏡頭和運動等視覺特征,進而分析實現(xiàn)多媒體從無結構到結構化的過程。而對于音頻的分析,通常采用音頻切分和分類的方法來進行分析,這種方法可以分為兩個主要類別。一是用來檢測強調(diào)部分、新主題的開始,或者對音頻內(nèi)容進行分析總結和檢測;二是對一定音頻內(nèi)容或者類別進行分類和識別。根據(jù)特征空間的不同,可以分為時域和頻域兩類。根據(jù)是否使用感知模型,音頻特征可以分為物理和感知兩類。
雖然從視頻角度來分析精度較高,但算法復雜,處理時間過長。而從音頻角度分析,一方面可以利用音頻分類進行音頻分割,再利用不同類別音頻組合來判斷出現(xiàn)事件的概率;另一方面可以利用語音的內(nèi)容信息進行檢索提高事件檢出的概率。
近來,對用于精彩內(nèi)容檢測的音頻分類及切分的研究由于其潛在的應用而越來越引起關注。
就音頻類型定義方面而言,非專利文獻1將足球比賽音頻流切分成比賽、廣告和演播室這幾種類型,以此來結構化視頻內(nèi)容。然而,這三種類型的區(qū)分無法真正滿足觀眾的需求。非專利文獻2設計了一種基于決策樹的層次化分類方法,其中,音頻流被分成五類:噪聲、解說員語音、哨聲、歡呼聲和帶背景噪聲的語音。然而,音頻流的背景環(huán)境是非常復雜的,很少有不帶背景噪聲的語音。對于精彩內(nèi)容的檢測來說,區(qū)分帶噪聲和不帶噪聲的語音并沒有實際意義。非專利文獻3從三個方面分析了體育比賽:音頻、視頻和紋理。在該系統(tǒng)中,音頻流被分成三類:解說員激動的解說聲、擊球聲和標志性聲音(歡呼聲、鼓掌聲),用來檢索三類視頻,即,會議視頻、電影及廣播新聞和體育視頻。該方法對于具體的體育比賽(例如,足球比賽)來說效果不好,這是因為擊球聲和鼓掌聲不是非常明顯,在比賽期間過于平穩(wěn)。非專利文獻4致力于基于體育比賽的索引及檢索。定義了四種音頻類型:解說員的語音、觀眾的語音、與球有關的聲音和背景噪聲。由于解說員的語音通過占據(jù)大部分的比賽時間,因此這種分類方法可能對于結構化切分比較有效,但對于精彩內(nèi)容的檢測效果不好。
就音頻特征選擇方面而言,非專利文獻5提取clip-level和shot-level兩個層面的聲音特征。其中,每一段的長度固定為1秒鐘。使用的聲學特征有10維:1維音量特征,1維能量,4維子帶能量,4維譜通量。精度可以達到94.9%(37/39),召回率為90.2%(37/41),但僅完成了對進球的檢測。非專利文獻1中,結合足球視頻的特點,采用基于HMM音頻自動分類模型將足球視頻的音頻分為比賽、廣告和演播室三類音頻,實現(xiàn)足球視頻的切分。采用了26維音頻特征:短時平均能量、過零率、12維MFCC和12維ΔMFCC。在從三場比賽中選取的三小段比賽中進行切分,切分分類平均精度為88%,分割點偏差在0~5個片斷的百分比僅占70%以上。非專利文獻6同時利用音頻和視頻特征對體育比賽進行場景分類,在音頻方面,主要是利用能量特征來進行比較,如果能量大于預定的第一個閾值,則認為該場景重要性為最高;利用兩個連續(xù)場運動行為(motion?activity)的差值大于預定的第二個閥值,則認為該場景重要性為次高;而能量和差值均小于預定門限的話,則認為該場景重要性最低。進而,根據(jù)重要性級別對體育場景進行分類。
如上所述,可以看到,為了獲得高效的足球比賽精彩內(nèi)容的檢測,應定義合理的音頻類型。而且,所采用的音頻特征參數(shù)也應該更好地表征與精彩內(nèi)容相關的音頻類型的特性。
非專利文獻1:Jianyun?Chen,Yunhao?Li,etc.,″Automatic?audioclassification?and?segmentation?for?soccer?video?structuring″,Journal?ofNational?University?of?Defense?Technology,Vol.26(6),2004,pp.49-53。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于索尼(中國)有限公司,未經(jīng)索尼(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810161401.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





