[發(fā)明專利]面向新聞視頻的人物對(duì)話字幕提取方法有效

申請(qǐng)?zhí)枺?/td>	201310534003.9	申請(qǐng)日：	2013-10-31
公開(kāi)（公告）號(hào)：	CN103856689A	公開(kāi)（公告）日：	2014-06-11
發(fā)明（設(shè)計(jì)）人：	姜洪臣	申請(qǐng)（專利權(quán)）人：	北京中科模識(shí)科技有限公司
主分類號(hào)：	H04N5/222	分類號(hào)：	H04N5/222;G06K9/32
代理公司：	北京路浩知識(shí)產(chǎn)權(quán)代理有限公司 11002	代理人：	李相雨
地址：	100190 北京市海***	國(guó)省代碼：	北京;11
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	面向新聞視頻人物對(duì)話字幕提取方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書(shū)】：

技術(shù)領(lǐng)域

本發(fā)明涉及音視頻智能分析技術(shù)領(lǐng)域，特別涉及一種面向新聞視頻的人物對(duì)話字幕提取方法。

背景技術(shù)

新聞節(jié)目是以現(xiàn)代電子技術(shù)為傳播手段，以聲音、畫(huà)面為傳播符號(hào)，對(duì)新近或正在發(fā)生的事實(shí)通過(guò)電視媒體進(jìn)行報(bào)道多媒體數(shù)據(jù)流文件。隨著電視信號(hào)覆蓋到我國(guó)絕大部分的人口和地區(qū)，新聞節(jié)目已經(jīng)深入到人們的日常工作、學(xué)習(xí)和生活中，成為人民群眾獲取信息的重要途徑。

新聞字幕是指在新聞節(jié)目制作過(guò)程中人工添加到視頻中的文字，其包括但不僅限于：對(duì)新聞條目進(jìn)行簡(jiǎn)要概述的標(biāo)題字幕；對(duì)新聞中出現(xiàn)的人物器件等進(jìn)行介紹解釋的說(shuō)明性字幕；記錄新聞采訪片段中，采訪者和被采訪者談話內(nèi)容的人物對(duì)話字幕。由于包含大量的重要語(yǔ)義信息，新聞字幕在新聞視頻的拆條、編目和檢索等應(yīng)用中扮演了極其重要的角色，它的高精度自動(dòng)提取和識(shí)別也因此成為音視頻智能分析領(lǐng)域的一個(gè)熱點(diǎn)課題。人物對(duì)話字幕對(duì)新聞視頻中，采訪者和被采訪者說(shuō)話的語(yǔ)音內(nèi)容予以同步顯示，對(duì)新聞條目的細(xì)節(jié)進(jìn)行了生動(dòng)直觀的刻畫(huà)，與其它類型的字幕互為補(bǔ)充，在幫助用戶理解新聞內(nèi)容上起到了重要作用。

從音頻角度來(lái)看，新聞視頻中的語(yǔ)音可分為主持人語(yǔ)音和人物對(duì)話兩類，與之對(duì)應(yīng)的視頻鏡頭則可分別稱為主持人說(shuō)話鏡頭和人物對(duì)話鏡頭。根據(jù)新聞視頻的編輯特點(diǎn)，一般地，標(biāo)題字幕出現(xiàn)在主持人說(shuō)話的鏡頭，人物對(duì)話字幕出現(xiàn)在人物對(duì)話的鏡頭，說(shuō)明性字幕則在兩種鏡頭中都可能出現(xiàn)。

傳統(tǒng)的技術(shù)在進(jìn)行新聞字幕提取時(shí)，對(duì)各種類型的字幕采取的是統(tǒng)一的提取方法，從而忽視了不同類型的字幕有著不同的視覺(jué)特性和編輯風(fēng)格的事實(shí)。例如，標(biāo)題字幕和人物對(duì)話字幕的出現(xiàn)位置、字體及大小、顏色都可能不同，而且前者與后者相比通常有著更大的字幕區(qū)域和更長(zhǎng)的時(shí)序持續(xù)時(shí)間。這些特性導(dǎo)致對(duì)通用的字幕提取方法來(lái)說(shuō)，人物對(duì)話字幕通常比標(biāo)題字幕等更難提取。為實(shí)現(xiàn)新聞視頻人物對(duì)話字幕的高精度提取，有必要采取分而治之的思路，探索專門針對(duì)人物對(duì)話字幕的字幕提取方法。然而，根據(jù)我們的查詢結(jié)果，現(xiàn)有技術(shù)中并沒(méi)有專門針對(duì)新聞視頻人物對(duì)話字幕的提取方法。

發(fā)明內(nèi)容

（一）要解決的技術(shù)問(wèn)題

本發(fā)明所要解決的技術(shù)問(wèn)題是：如何利用音視頻信息智能處理技術(shù)，提供一種高精度的面向新聞視頻的人物對(duì)話字幕自動(dòng)提取方法，為新聞視頻的高效管理和深入開(kāi)發(fā)利用提供技術(shù)支持。

（二）技術(shù)方案

為解決上述問(wèn)題，本發(fā)明提供一種面向新聞視頻的人物對(duì)話字幕提取方法，包括：

S1、將新聞節(jié)目經(jīng)數(shù)字化采集設(shè)備轉(zhuǎn)化為數(shù)字新聞視頻；

S2、對(duì)所述新聞視頻進(jìn)行鏡頭邊界檢測(cè)和語(yǔ)音預(yù)處理；

S3、基于步驟S2得到的語(yǔ)音鏡頭集合進(jìn)行主持人檢測(cè)和聚類，使一個(gè)類的鏡頭都對(duì)應(yīng)同一個(gè)主持人；

S4、基于步驟S3得到的聚類結(jié)果收集的不同主持人的語(yǔ)音，構(gòu)造相應(yīng)的主持人聲學(xué)模型，并依此將視頻內(nèi)所有語(yǔ)音鏡頭分類為主持人說(shuō)話鏡頭和人物對(duì)話鏡頭；

S5、對(duì)人物對(duì)話鏡頭進(jìn)行字幕檢測(cè)和跟蹤，得到每條字幕的出現(xiàn)和消失時(shí)間，以及它的空間位置；

S6、基于字幕位置分析，過(guò)濾誤判為字幕的背景區(qū)域和噪聲字幕，將剩余字幕作為人物對(duì)話字幕輸出。

優(yōu)選地，所述步驟S2包括：首先將新聞視頻分解為以鏡頭為單元的片段，然后根據(jù)鏡頭所對(duì)應(yīng)時(shí)間片段的聲學(xué)特征，將鏡頭分類為語(yǔ)音鏡頭和非語(yǔ)音鏡頭。

優(yōu)選地，所述步驟S2中的語(yǔ)音預(yù)處理包括：

S21、將音頻信號(hào)流分解成音頻幀，提取音頻幀的基頻和能量?jī)煞N聲學(xué)特征，利用這兩種特征將音頻幀分類為靜音幀和非靜音幀；

S22、將連續(xù)的音頻幀組合為音頻單元，統(tǒng)計(jì)音頻單元中靜音幀的比例，并依此將音頻單元分類為靜音單元和非靜音單元；

S23、提取非靜音單元基于譜特征的時(shí)域擴(kuò)展模式作為聲學(xué)特征，基于該特征預(yù)先訓(xùn)練的語(yǔ)音-非語(yǔ)音分類器模型將非靜音單元分類為語(yǔ)音單元和非語(yǔ)音單元；

S24、統(tǒng)計(jì)鏡頭內(nèi)語(yǔ)音單元的比例，并依此將鏡頭分類為語(yǔ)音鏡頭和非語(yǔ)音鏡頭。

優(yōu)選地，所述步驟S3中的主持人檢測(cè)和聚類包括步驟：

S31、選取各語(yǔ)音鏡頭的中間幀圖像表示該鏡頭，進(jìn)行人臉檢測(cè)；

S32、對(duì)檢測(cè)到的人臉，計(jì)算其大小和中心位置，過(guò)濾不滿足尺寸和位置要求的人臉，對(duì)于剩余的人臉，根據(jù)人臉位置計(jì)算得到人的軀干和背景區(qū)域；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中科模識(shí)科技有限公司，未經(jīng)北京中科模識(shí)科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310534003.9/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：車載酒精檢測(cè)儀
下一篇：一種高檔公交車用多功能風(fēng)道

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N5-00 電視系統(tǒng)的零部件
H04N5-04 .同步
H04N5-14 .視頻圖像信號(hào)電路
H04N5-222 .電視演播室線路；電視演播室裝置；電視演播室設(shè)備
H04N5-30 .轉(zhuǎn)變光或模擬信息為電信號(hào)
H04N5-38 .發(fā)射機(jī)電路

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū)；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】