[發明專利]一種多模態融合的采訪鏡頭檢測方法無效
| 申請號: | 200710099725.0 | 申請日: | 2007-05-29 |
| 公開(公告)號: | CN101316327A | 公開(公告)日: | 2008-12-03 |
| 發明(設計)人: | 劉安安;李錦濤;張勇東;唐勝;宋硯 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | H04N5/262 | 分類號: | H04N5/262 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 | 代理人: | 高存秀 |
| 地址: | 100080北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多模態 融合 采訪 鏡頭 檢測 方法 | ||
1.一種多模態融合的采訪鏡頭檢測方法,按照以下步驟順序執行:
步驟10)、輸入未編輯的原始視頻,對視頻進行預處理,得到原始視頻的視頻流和音頻流,以及視頻流中的鏡頭、各個鏡頭的關鍵幀;
步驟20)、根據所述的音頻流建立人聲模型,并依賴所述的人聲模型判斷鏡頭是否為包含人聲的鏡頭;
步驟30)、根據所述的視頻流建立人臉模型,并依賴所述的人臉模型判斷鏡頭是否為包含人臉的鏡頭;
步驟40)、根據步驟20)的人聲檢測結果和步驟30)的人臉檢測結果建立采訪模型,并在所述的采訪模型中融合人聲檢測結果和人臉檢測結果,根據融合的結果判斷鏡頭是否為采訪鏡頭,如果一個鏡頭中同時包含人聲和人臉信息,則所述鏡頭為采訪鏡頭。
2.根據權利要求1所述的多模態融合的采訪鏡頭檢測方法,其特征在于,在所述的步驟10)中,所述對輸入的原始視頻的預處理具體包括以下步驟:
步驟11)、將輸入視頻分為視頻流和音頻流;
步驟12)、對所述視頻流進行鏡頭邊界檢測和關鍵幀提取。
3.根據權利要求1所述的多模態融合的采訪鏡頭檢測方法,其特征在于,在所述的步驟20)中,所述人聲模型的建立具體包括以下步驟:
步驟21)、從音頻流中提取基于幀的短時音頻特征;
步驟22)、根據音頻內容,將各音頻短時幀對應的音頻特征標注為人聲類或非人聲類,建立訓練數據集和測試數據集,并將未編輯原始視頻中的音頻流數據添加到所述訓練數據集或測試數據集;
步驟23)、通過支持向量機分類器和所述訓練數據集建立人聲模型;
步驟24)、通過有限狀態機對所述測試數據集中音頻短時幀的分類結果做平滑,得到音頻短時幀類型的檢測結果;
步驟25)、根據所述檢測結果,計算一個鏡頭中人聲類型的音頻短時幀占總幀數的比例,并判斷所得到的比例是否大于第三閾值,如果大于,則所在鏡頭為包含人聲的鏡頭。
4.根據權利要求3所述的多模態融合的采訪鏡頭檢測方法,其特征在于,在所述的步驟21)中,所述的短時音頻特征為短時音頻能量、短時過零率、美爾倒譜系數、子帶能量和子帶能量比。
5.根據權利要求3所述的多模態融合的采訪鏡頭檢測方法,其特征在于,在所述的步驟25)中,所述的第三閾值為0.7。
6.根據權利要求1所述的多模態融合的采訪鏡頭檢測方法,其特征在于,所述的步驟30)具體包括以下步驟:
步驟31)、建立人臉模型,對所述步驟10)所得到的各鏡頭關鍵幀是否包含人臉概念進行判斷,并記錄包含人臉概念的關鍵幀;
步驟32)、計算一個鏡頭中包含人臉概念的關鍵幀占該鏡頭中總關鍵幀的比例;
步驟33)、根據所述比例,判斷鏡頭是否為包含人臉的鏡頭。
7.根據權利要求6所述的多模態融合的采訪鏡頭檢測方法,其特征在于,在所述的步驟31)中,通過AAM方法建立人臉模型。
8.根據權利要求6所述的多模態融合的采訪鏡頭檢測方法,其特征在于,在所述的步驟32)中,對所得到的比例進行優化,所述優化的具體實現如下:
步驟32-1)、計算用于表示關鍵幀重要性的聚合度因子,并將該因子與所述步驟32)中所得到的比例相乘,得到一個新的比例,用第三比例Ratio3表示;其中,所述聚合度因子表示一個關鍵幀對關鍵幀所在鏡頭的表征能力;
步驟32-2)、計算用于表示鏡頭重要性的時間因子,并將該因子與所述步驟32)中所得到的比例相乘,得到又一個新的比例,用第四比例Ratio4表示;所述時間因子表示鏡頭長度占整個視頻長度的比例。
9.根據權利要求8所述的多模態融合的采訪鏡頭檢測方法,其特征在于,在所述的步驟32-1)中,在計算所述聚合度因子時,將鏡頭的總幀數除以鏡頭的關鍵幀數。
10.根據權利要求8所述的多模態融合的采訪鏡頭檢測方法,其特征在于,在所述的步驟32-2)中,在計算所述時間因子時,將鏡頭的時間除以鏡頭所在原始視頻的時間。
11.根據權利要求8所述的多模態融合的采訪鏡頭檢測方法,其特征在于,在所述的步驟33)中,用Ratio2表示步驟32)所得到的比例,則判斷鏡頭是否為包含人臉概念的鏡頭的具體操作如下:
如果Ratio2>Th4,則決策值DV1=1,否則DV1=0;
如果Ratio3>Th5,則決策值DV2=1,否則DV2=0;
如果Ratio4>Th6,則決策值DV3=1,否則DV3=0;
如果DV1‖DV2‖DV3=1,則該鏡頭包含人臉信息,否則不包含人臉信息;
其中,“‖”表示“或”操作,第四閾值Th4為0.2,第五閾值Th5為0.3,第六閾值Th6為0.3。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710099725.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:法式氣嘴專用的充氣嘴
- 下一篇:在線測定樣品中生化需氧量的裝置及方法





