[發(fā)明專利]一種針對(duì)講座視頻的時(shí)間軸自動(dòng)產(chǎn)生方法在審
| 申請(qǐng)?zhí)枺?/td> | 201410423661.5 | 申請(qǐng)日: | 2014-08-26 |
| 公開(公告)號(hào): | CN104159145A | 公開(公告)日: | 2014-11-19 |
| 發(fā)明(設(shè)計(jì))人: | 程國(guó)艮;袁翔宇;王宇晨 | 申請(qǐng)(專利權(quán))人: | 中譯語通科技(北京)有限公司 |
| 主分類號(hào): | H04N21/434 | 分類號(hào): | H04N21/434;H04N21/435;H04N21/80;G11B27/10 |
| 代理公司: | 北京知本村知識(shí)產(chǎn)權(quán)代理事務(wù)所 11039 | 代理人: | 周自清 |
| 地址: | 100040 北京市石景山區(qū)八*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對(duì) 講座 視頻 時(shí)間 自動(dòng) 產(chǎn)生 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)軟件技術(shù)領(lǐng)域,尤指一種針對(duì)講座視頻的時(shí)間軸自動(dòng)產(chǎn)生方法。
背景技術(shù)
講座、演講、講話類視頻的特點(diǎn)是:(1)主講人單一;(2)環(huán)境噪音干擾??;(3)主要的干擾是掌聲、笑聲、拖音和呼吸聲。通常,講座視頻長(zhǎng)度為10分鐘-2小時(shí)。以1小時(shí)的視頻為例,切分出時(shí)間軸,需要1-2小時(shí)的人工,浪費(fèi)人力物力。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供一種可以自動(dòng)產(chǎn)生出高精度的講座視頻時(shí)間軸的針對(duì)講座視頻的時(shí)間軸自動(dòng)產(chǎn)生方法。
本發(fā)明是一種針對(duì)講座視頻的時(shí)間軸自動(dòng)產(chǎn)生方法,使用頻率相似性和頻譜相似性結(jié)合來得到時(shí)間軸語音段;并且采用二次掃描,根據(jù)過零率,得到更精確的時(shí)間軸語音段,包括以下步驟:
第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測(cè)出基音頻率;
第二步,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差σ,作為講話人的基因頻率;
第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時(shí)間軸單元;
第四步,對(duì)于每一個(gè)時(shí)間軸單元,計(jì)算其基音頻率相似性A及頻譜相似性B,所述頻率相似性A,既是該時(shí)間軸的基音平均頻率,在以第二步計(jì)算得到的,基音頻率的平均值μ和標(biāo)準(zhǔn)差σ所得到的正態(tài)分布上,所出現(xiàn)的概率;所述頻譜相似性B的計(jì)算方式如下:每個(gè)時(shí)間軸由N幀組成,計(jì)算每一幀與前一幀的基因頻率差的平均值D;取一個(gè)閾值K,當(dāng)D<K時(shí),B?=?1,當(dāng)D>K時(shí),B按線性衰減;對(duì)于A,B取兩個(gè)閾值,當(dāng)A和B均大于這兩個(gè)閾值時(shí),認(rèn)為是演講人在說話,排除非演講人說話的時(shí)間軸,得到的時(shí)間軸為演講人說話的時(shí)間軸。
本發(fā)明的有益技術(shù)效果在于:本方法通過語音分析的方式,自動(dòng)得到講座視頻的時(shí)間軸,主要用于給講座、演講、講話類視頻加配字幕時(shí)的預(yù)處理,省去了人工調(diào)制的過程。本方法可以自動(dòng)產(chǎn)生出高精度的講座視頻時(shí)間軸,節(jié)省大量的人工。
附圖說明
圖1為劃分的時(shí)間軸單元示意圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。
本方法通過語音分析的方式,自動(dòng)得到講座視頻的時(shí)間軸,主要用于給講座、演講、講話類視頻加配字幕時(shí)的預(yù)處理,省去了人工調(diào)制的過程。
講座、演講、講話類視頻的特點(diǎn)是:
(1)主講人單一;
(2)環(huán)境噪音干擾小;
(3)主要的干擾是掌聲、笑聲、拖音和呼吸聲。
本方法針對(duì)講座視頻的上述特點(diǎn),采用兩次掃描、三門閾法產(chǎn)生出時(shí)間軸,自動(dòng)提取出語音片段,產(chǎn)生字幕時(shí)間軸。
本發(fā)明是一種針對(duì)講座視頻的時(shí)間軸自動(dòng)產(chǎn)生方法,通過基音頻率對(duì)主講人的聲音及其他聲音進(jìn)行分開,具體包括以下步驟:
第一步,掃描一遍視頻,通過小波變換和自相關(guān)函數(shù)法檢測(cè)出基音頻率。
第二步,鑒于講話人固定,基音頻率也固定,尋找基音頻率的平均值μ和標(biāo)準(zhǔn)差σ,作為講話人的基因頻率。
第三步,根據(jù)基音頻率,進(jìn)行初劃分,劃分為時(shí)間軸單元,如圖1所示。
第四步,對(duì)于每一個(gè)時(shí)間軸單元,計(jì)算其基音頻率相似性A及頻譜相似性B,所述頻率相似性A,既是該時(shí)間軸的基音平均頻率,在以第二步計(jì)算得到的,基音頻率的平均值μ和標(biāo)準(zhǔn)差σ所得到的正態(tài)分布上,所出現(xiàn)的概率;所述頻譜相似性B的計(jì)算方式如下:每個(gè)時(shí)間軸由N幀組成,計(jì)算每一幀與前一幀的基因頻率差的平均值D;取一個(gè)閾值K,當(dāng)D<K時(shí),B?=?1,當(dāng)D>K時(shí),B按線性衰減;對(duì)于A,B取兩個(gè)閾值,當(dāng)A和B均大于這兩個(gè)閾值時(shí),認(rèn)為是演講人在說話,排除非演講人說話的時(shí)間軸,得到的時(shí)間軸為演講人說話的時(shí)間軸。
由于人說話時(shí),語音的頭部和尾部并不具有基音特征,因此,真實(shí)的說話的時(shí)間區(qū)間比根據(jù)基音得到的時(shí)間區(qū)間要大一些,因此,對(duì)于根據(jù)基音得到的時(shí)間軸,需要在此時(shí)間軸基礎(chǔ)上,向前或向后各分析0.5秒的時(shí)間。計(jì)算這段時(shí)間的語音信號(hào)的過零率,如果過零率的值較大,則認(rèn)為是語音,從而得到修正后的時(shí)間軸數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中譯語通科技(北京)有限公司,未經(jīng)中譯語通科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410423661.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨(dú)立于分配過程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件
- 電子講座臺(tái)
- 分享講座課件的方法和裝置
- 一種便捷進(jìn)行在線講座的實(shí)現(xiàn)系統(tǒng)及方法
- 講座內(nèi)容展示方法、裝置及存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備
- 講座PPT智能分析、存儲(chǔ)以及按需分發(fā)系統(tǒng)
- 講座全信息采集并智能嵌入音頻的按需分發(fā)管理系統(tǒng)
- 一種思政課實(shí)踐教學(xué)用的移動(dòng)式宣講臺(tái)
- 一種信息時(shí)代大學(xué)生理財(cái)能力培養(yǎng)講座專用講解裝置
- 一種教學(xué)用的多媒體講座臺(tái)
- 一種工商管理教學(xué)用具
- 時(shí)間同步裝置、時(shí)間同步系統(tǒng)和時(shí)間同步方法
- 時(shí)間校準(zhǔn)裝置和時(shí)間校準(zhǔn)方法
- 時(shí)間同步系統(tǒng)及時(shí)間同步方法
- 時(shí)間同步方法、時(shí)間同步系統(tǒng)、時(shí)間主設(shè)備以及時(shí)間從設(shè)備
- 時(shí)間控制裝置和時(shí)間控制方法
- 時(shí)間測(cè)試電路及時(shí)間測(cè)試方法
- 時(shí)間的飛行時(shí)間
- 局部激活時(shí)間的時(shí)間變換
- 時(shí)間測(cè)量電路、時(shí)間測(cè)量芯片及時(shí)間測(cè)量裝置
- 時(shí)間同步方法與時(shí)間同步系統(tǒng)





