[發(fā)明專利]面向新聞視頻的人物對(duì)話字幕提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310534003.9 | 申請(qǐng)日: | 2013-10-31 |
| 公開(kāi)(公告)號(hào): | CN103856689A | 公開(kāi)(公告)日: | 2014-06-11 |
| 發(fā)明(設(shè)計(jì))人: | 姜洪臣 | 申請(qǐng)(專利權(quán))人: | 北京中科模識(shí)科技有限公司 |
| 主分類號(hào): | H04N5/222 | 分類號(hào): | H04N5/222;G06K9/32 |
| 代理公司: | 北京路浩知識(shí)產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 李相雨 |
| 地址: | 100190 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 新聞 視頻 人物 對(duì)話 字幕 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及音視頻智能分析技術(shù)領(lǐng)域,特別涉及一種面向新聞視頻的人物對(duì)話字幕提取方法。
背景技術(shù)
新聞節(jié)目是以現(xiàn)代電子技術(shù)為傳播手段,以聲音、畫(huà)面為傳播符號(hào),對(duì)新近或正在發(fā)生的事實(shí)通過(guò)電視媒體進(jìn)行報(bào)道多媒體數(shù)據(jù)流文件。隨著電視信號(hào)覆蓋到我國(guó)絕大部分的人口和地區(qū),新聞節(jié)目已經(jīng)深入到人們的日常工作、學(xué)習(xí)和生活中,成為人民群眾獲取信息的重要途徑。
新聞字幕是指在新聞節(jié)目制作過(guò)程中人工添加到視頻中的文字,其包括但不僅限于:對(duì)新聞條目進(jìn)行簡(jiǎn)要概述的標(biāo)題字幕;對(duì)新聞中出現(xiàn)的人物器件等進(jìn)行介紹解釋的說(shuō)明性字幕;記錄新聞采訪片段中,采訪者和被采訪者談話內(nèi)容的人物對(duì)話字幕。由于包含大量的重要語(yǔ)義信息,新聞字幕在新聞視頻的拆條、編目和檢索等應(yīng)用中扮演了極其重要的角色,它的高精度自動(dòng)提取和識(shí)別也因此成為音視頻智能分析領(lǐng)域的一個(gè)熱點(diǎn)課題。人物對(duì)話字幕對(duì)新聞視頻中,采訪者和被采訪者說(shuō)話的語(yǔ)音內(nèi)容予以同步顯示,對(duì)新聞條目的細(xì)節(jié)進(jìn)行了生動(dòng)直觀的刻畫(huà),與其它類型的字幕互為補(bǔ)充,在幫助用戶理解新聞內(nèi)容上起到了重要作用。
從音頻角度來(lái)看,新聞視頻中的語(yǔ)音可分為主持人語(yǔ)音和人物對(duì)話兩類,與之對(duì)應(yīng)的視頻鏡頭則可分別稱為主持人說(shuō)話鏡頭和人物對(duì)話鏡頭。根據(jù)新聞視頻的編輯特點(diǎn),一般地,標(biāo)題字幕出現(xiàn)在主持人說(shuō)話的鏡頭,人物對(duì)話字幕出現(xiàn)在人物對(duì)話的鏡頭,說(shuō)明性字幕則在兩種鏡頭中都可能出現(xiàn)。
傳統(tǒng)的技術(shù)在進(jìn)行新聞字幕提取時(shí),對(duì)各種類型的字幕采取的是統(tǒng)一的提取方法,從而忽視了不同類型的字幕有著不同的視覺(jué)特性和編輯風(fēng)格的事實(shí)。例如,標(biāo)題字幕和人物對(duì)話字幕的出現(xiàn)位置、字體及大小、顏色都可能不同,而且前者與后者相比通常有著更大的字幕區(qū)域和更長(zhǎng)的時(shí)序持續(xù)時(shí)間。這些特性導(dǎo)致對(duì)通用的字幕提取方法來(lái)說(shuō),人物對(duì)話字幕通常比標(biāo)題字幕等更難提取。為實(shí)現(xiàn)新聞視頻人物對(duì)話字幕的高精度提取,有必要采取分而治之的思路,探索專門針對(duì)人物對(duì)話字幕的字幕提取方法。然而,根據(jù)我們的查詢結(jié)果,現(xiàn)有技術(shù)中并沒(méi)有專門針對(duì)新聞視頻人物對(duì)話字幕的提取方法。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問(wèn)題
本發(fā)明所要解決的技術(shù)問(wèn)題是:如何利用音視頻信息智能處理技術(shù),提供一種高精度的面向新聞視頻的人物對(duì)話字幕自動(dòng)提取方法,為新聞視頻的高效管理和深入開(kāi)發(fā)利用提供技術(shù)支持。
(二)技術(shù)方案
為解決上述問(wèn)題,本發(fā)明提供一種面向新聞視頻的人物對(duì)話字幕提取方法,包括:
S1、將新聞節(jié)目經(jīng)數(shù)字化采集設(shè)備轉(zhuǎn)化為數(shù)字新聞視頻;
S2、對(duì)所述新聞視頻進(jìn)行鏡頭邊界檢測(cè)和語(yǔ)音預(yù)處理;
S3、基于步驟S2得到的語(yǔ)音鏡頭集合進(jìn)行主持人檢測(cè)和聚類,使一個(gè)類的鏡頭都對(duì)應(yīng)同一個(gè)主持人;
S4、基于步驟S3得到的聚類結(jié)果收集的不同主持人的語(yǔ)音,構(gòu)造相應(yīng)的主持人聲學(xué)模型,并依此將視頻內(nèi)所有語(yǔ)音鏡頭分類為主持人說(shuō)話鏡頭和人物對(duì)話鏡頭;
S5、對(duì)人物對(duì)話鏡頭進(jìn)行字幕檢測(cè)和跟蹤,得到每條字幕的出現(xiàn)和消失時(shí)間,以及它的空間位置;
S6、基于字幕位置分析,過(guò)濾誤判為字幕的背景區(qū)域和噪聲字幕,將剩余字幕作為人物對(duì)話字幕輸出。
優(yōu)選地,所述步驟S2包括:首先將新聞視頻分解為以鏡頭為單元的片段,然后根據(jù)鏡頭所對(duì)應(yīng)時(shí)間片段的聲學(xué)特征,將鏡頭分類為語(yǔ)音鏡頭和非語(yǔ)音鏡頭。
優(yōu)選地,所述步驟S2中的語(yǔ)音預(yù)處理包括:
S21、將音頻信號(hào)流分解成音頻幀,提取音頻幀的基頻和能量?jī)煞N聲學(xué)特征,利用這兩種特征將音頻幀分類為靜音幀和非靜音幀;
S22、將連續(xù)的音頻幀組合為音頻單元,統(tǒng)計(jì)音頻單元中靜音幀的比例,并依此將音頻單元分類為靜音單元和非靜音單元;
S23、提取非靜音單元基于譜特征的時(shí)域擴(kuò)展模式作為聲學(xué)特征,基于該特征預(yù)先訓(xùn)練的語(yǔ)音-非語(yǔ)音分類器模型將非靜音單元分類為語(yǔ)音單元和非語(yǔ)音單元;
S24、統(tǒng)計(jì)鏡頭內(nèi)語(yǔ)音單元的比例,并依此將鏡頭分類為語(yǔ)音鏡頭和非語(yǔ)音鏡頭。
優(yōu)選地,所述步驟S3中的主持人檢測(cè)和聚類包括步驟:
S31、選取各語(yǔ)音鏡頭的中間幀圖像表示該鏡頭,進(jìn)行人臉檢測(cè);
S32、對(duì)檢測(cè)到的人臉,計(jì)算其大小和中心位置,過(guò)濾不滿足尺寸和位置要求的人臉,對(duì)于剩余的人臉,根據(jù)人臉位置計(jì)算得到人的軀干和背景區(qū)域;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中科模識(shí)科技有限公司,未經(jīng)北京中科模識(shí)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310534003.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:車載酒精檢測(cè)儀
- 下一篇:一種高檔公交車用多功能風(fēng)道
- 呈現(xiàn)人物關(guān)系的方法及裝置
- 一種人臉識(shí)別安防考勤系統(tǒng)
- 一種用于人物關(guān)系抽取的方法和裝置
- 基于移動(dòng)終端的人物識(shí)別提醒系統(tǒng)及方法
- 智能游戲人物識(shí)別裝置、系統(tǒng)及方法
- 一種多視頻的目標(biāo)搜索方法、裝置及設(shè)備
- 基于社交網(wǎng)絡(luò)大數(shù)據(jù)的人物畫(huà)像模型構(gòu)建方法
- 一種人數(shù)分析統(tǒng)計(jì)方法及系統(tǒng)
- 查找目標(biāo)人物的方法、裝置、終端和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 進(jìn)行人物聚類的方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)





