[發明專利]面向新聞視頻的人物對話字幕提取方法有效
| 申請號: | 201310534003.9 | 申請日: | 2013-10-31 |
| 公開(公告)號: | CN103856689A | 公開(公告)日: | 2014-06-11 |
| 發明(設計)人: | 姜洪臣 | 申請(專利權)人: | 北京中科模識科技有限公司 |
| 主分類號: | H04N5/222 | 分類號: | H04N5/222;G06K9/32 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100190 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 新聞 視頻 人物 對話 字幕 提取 方法 | ||
1.一種面向新聞視頻的人物對話字幕提取方法,其特征在于,包括步驟:
S1、將新聞節目經數字化采集設備轉化為數字新聞視頻;
S2、對所述新聞視頻進行鏡頭邊界檢測和語音預處理;
S3、基于步驟S2得到的語音鏡頭集合進行主持人檢測和聚類,使一個類的鏡頭都對應同一個主持人;
S4、基于步驟S3得到的聚類結果收集的不同主持人的語音,構造相應的主持人聲學模型,并依此將視頻內所有語音鏡頭分類為主持人說話鏡頭和人物對話鏡頭;
S5、對人物對話鏡頭進行字幕檢測和跟蹤,得到每條字幕的出現和消失時間,以及它的空間位置;
S6、基于字幕位置分析,過濾誤判為字幕的背景區域和噪聲字幕,將剩余字幕作為人物對話字幕輸出。
2.如權利要求1所述的方法,其特征在于,所述步驟S2包括:首先將新聞視頻分解為以鏡頭為單元的片段,然后根據鏡頭所對應時間片段的聲學特征,將鏡頭分類為語音鏡頭和非語音鏡頭。
3.如權利要求1或2所述的方法,其特征在于,所述步驟S2中的語音預處理包括:
S21、將音頻信號流分解成音頻幀,提取音頻幀的基頻和能量兩種聲學特征,利用這兩種特征將音頻幀分類為靜音幀和非靜音幀;
S22、將連續的音頻幀組合為音頻單元,統計音頻單元中靜音幀的比例,并依此將音頻單元分類為靜音單元和非靜音單元;
S23、提取非靜音單元基于譜特征的時域擴展模式作為聲學特征,基于該特征預先訓練的語音-非語音分類器模型將非靜音單元分類為語音單元和非語音單元;
S24、統計鏡頭內語音單元的比例,并依此將鏡頭分類為語音鏡頭和非語音鏡頭。
4.如權利要求1所述的方法,其特征在于,所述步驟S3中的主持人檢測和聚類包括步驟:
S31、選取各語音鏡頭的中間幀圖像表示該鏡頭,進行人臉檢測;
S32、對檢測到的人臉,計算其大小和中心位置,過濾不滿足尺寸和位置要求的人臉,對于剩余的人臉,根據人臉位置計算得到人的軀干和背景區域;
S33、提取人臉特定面部區域的尺度不變特征轉換描述子特征、軀干的全局顏色特征和背景區域的全局顏色特征,并依此計算人臉幀之間的兩兩相似度,采用凝聚式層次聚類方法將屬于同一個人的視頻幀聚到同一個類;
S34、根據同一個類中視頻幀的數量及其所屬鏡頭的時間跨度信息,對聚類結果進行過濾,得到判定為主持人的類。
5.如權利要求4所述的方法,其特征在于,所述步驟S4中的主持人聲學模型構造和主持人說話鏡頭-人物對話鏡頭判別包括步驟:
S41、提取視頻中所有語音單元的美爾頻率倒譜系數特征,基于高斯混合模型-通用背景模型框架,采用數學期望最大化算法估計通用背景模型;
S42、根據步驟S34得到的主持人聚類結果收集各個主持人的語音,基于高斯混合模型-通用背景模型框架和得到的通用背景模型,為各個主持人構造相應的聲學模型;
S43、基于美爾頻率倒譜系數特征計算語音單元與通用背景模型以及各個主持人聲學模型的似然度,采用閾值切分的方法將語音單元分類為主持人說話單元和非主持人說話單元,并根據鏡頭內主持人說話單元的比例將鏡頭分類為主持人說話鏡頭和人物對話鏡頭。
6.如權利要求1所述的方法,其特征在于,所述步驟S5中的字幕檢測和跟蹤包括步驟:
S51、以一定間隔從人物對話鏡頭抽取視頻幀,作為字幕檢測和跟蹤的對象;
S52、提取所抽取視頻幀的筆畫特征,把視頻幀轉換為筆畫特征圖,采用Ostu方法對筆畫特征圖進行二值化;
S53、迭代應用水平和垂直投影的方法從二值化后的筆畫特征圖中提取文本框形式的字幕區域;
S54、對于得到的字幕區域,沿時間軸一定范圍內前向和后向跟蹤,計算不同視頻幀的相同區域中發生顯著變化的像素的比例,并根據該比例,得到字幕的出現和消失時間點。
7.如權利要求6所述的方法,其特征在于,所述間隔是5幀,所述發生顯著變化是像素灰度值差值大于20,所述范圍是25幀。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科模識科技有限公司,未經北京中科模識科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310534003.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車載酒精檢測儀
- 下一篇:一種高檔公交車用多功能風道





