[發(fā)明專利]帶字幕視頻人聲分離方法、裝置、存儲介質(zhì)及電子設(shè)備在審
| 申請?zhí)枺?/td> | 202010879617.0 | 申請日: | 2020-08-27 |
| 公開(公告)號: | CN112218142A | 公開(公告)日: | 2021-01-12 |
| 發(fā)明(設(shè)計(jì))人: | 葉志堅(jiān);李稀敏;蔡渠棠 | 申請(專利權(quán))人: | 廈門快商通科技股份有限公司 |
| 主分類號: | H04N21/431 | 分類號: | H04N21/431;H04N21/44;H04N21/488;G06K9/00;G06K9/32 |
| 代理公司: | 廈門仕誠聯(lián)合知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35227 | 代理人: | 吳圳添 |
| 地址: | 361009 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 字幕 視頻 人聲 分離 方法 裝置 存儲 介質(zhì) 電子設(shè)備 | ||
本發(fā)明涉及一種帶字幕視頻人聲分離方法,包括獲取帶字幕視頻對應(yīng)的視頻幀圖像,確定所述視頻幀圖像的字幕區(qū)域;識別所述字幕區(qū)域的字幕內(nèi)容;獲取出現(xiàn)所述字幕內(nèi)容開始幀和結(jié)束幀的時間確定所述字幕內(nèi)容在所述帶字幕視頻的起始時間和結(jié)束時間;根據(jù)所述字幕內(nèi)容在所述帶字幕視頻的起始時間和結(jié)束時間獲取與所述帶字幕視頻中同步的音頻。本發(fā)明基于帶字幕的視頻中出現(xiàn)相同字幕內(nèi)容的起始時間和結(jié)束時間獲取與所述帶字幕視頻中同步的音頻,極大的提高人聲分離方法的正確率。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種帶字幕視頻人聲分離方法、裝置、存儲介質(zhì)及電子設(shè)備。
背景技術(shù)
目前人聲聚類的算法都需要將一段長的多人說話的音頻盡量的先按照句子分成單獨(dú)的每個音頻,再對這些音頻進(jìn)行聚類處理。
通常將多人說話的長音頻分離成單獨(dú)句子的短音頻,是通過靜音段的空段來進(jìn)行劃分的,當(dāng)說話人的語速較慢,或者兩個說話者間隙太短的時間,就很容易導(dǎo)致錯誤的分離,分離得到的短音頻句子中就會包括兩個兩者或者兩者以上的錯誤音頻,不利于進(jìn)行人聲的聚類。
發(fā)明內(nèi)容
本發(fā)明目的在于克服上述現(xiàn)有技術(shù)存在的不足,而提供一種帶字幕視頻人聲分離方法及裝置。
為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案是:
一種帶字幕視頻人聲分離方法,包括步驟:
S1、獲取帶字幕視頻對應(yīng)的視頻幀圖像,確定所述視頻幀圖像的字幕區(qū)域;
S2、識別所述字幕區(qū)域的字幕內(nèi)容;
S3、獲取出現(xiàn)所述字幕內(nèi)容開始幀和結(jié)束幀的時間確定所述字幕內(nèi)容在所述帶字幕視頻的起始時間和結(jié)束時間;
S4、根據(jù)所述字幕內(nèi)容在所述帶字幕視頻的起始時間和結(jié)束時間獲取與所述帶字幕視頻中同步的音頻。
進(jìn)一步的,所述步驟S1中確定所述視頻幀圖像的字幕區(qū)域還進(jìn)一步對所述字幕區(qū)域的背景進(jìn)行黑化處理,同時使字幕變成白色。
進(jìn)一步的,所述步驟S2通過ocr字符識別技術(shù)識別所述字幕內(nèi)容。
進(jìn)一步的,所述步驟S1中對所述視頻幀圖像按照時間順序進(jìn)行標(biāo)注,并記錄出現(xiàn)所述視頻幀圖像的時間。
進(jìn)一步的,所述步驟S3中根據(jù)出現(xiàn)所述字幕內(nèi)容開始幀和結(jié)束幀的時間是通過按照時間順序依次比較前后幀的視頻幀圖像的字幕內(nèi)容,出現(xiàn)連續(xù)相同的字幕內(nèi)容則記錄所述字幕內(nèi)容開始幀和結(jié)束幀的時間。
進(jìn)一步的,所述步驟S3中,所述字幕內(nèi)容開始幀和結(jié)束幀,是指所述字幕內(nèi)容對應(yīng)的句子或段落的開始幀和結(jié)束幀;所述步驟S4中的獲取的音頻,是指所述句子或所述段落對應(yīng)的音頻。
進(jìn)一步的,當(dāng)所述步驟S1中無字幕區(qū)域出現(xiàn)時,則停止步驟S2、S3和S4的進(jìn)行。
一種帶字幕視頻人聲分離裝置,包括:
圖像獲取模塊,用于獲取帶字幕視頻對應(yīng)的視頻幀圖像;
字幕獲取模塊,用于獲取所述視頻幀圖像的字幕區(qū)域;
字幕識別模塊,用于識別所述字幕區(qū)域的字幕內(nèi)容;
時間確定模塊,用以獲取相同字幕內(nèi)容開始幀和結(jié)束幀的時間;
音頻獲取模塊,用于獲取與所述字幕內(nèi)容同步的音頻。
一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令在由處理器執(zhí)行時,執(zhí)行上述任一項(xiàng)帶字幕視頻人聲分離方法。
一種電子設(shè)備,所述電子設(shè)備包括:
存儲器,用于存儲指令;以及
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通科技股份有限公司,未經(jīng)廈門快商通科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010879617.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨(dú)立于分配過程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





