[發(fā)明專利]一種電視劇音頻分割方法和裝置以及設備在審
| 申請?zhí)枺?/td> | 202010084690.9 | 申請日: | 2020-02-10 |
| 公開(公告)號: | CN111276129A | 公開(公告)日: | 2020-06-12 |
| 發(fā)明(設計)人: | 陳劍超;肖龍源;李稀敏;蔡振華;劉曉葳 | 申請(專利權(quán))人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/06;G10L15/14 |
| 代理公司: | 廈門原創(chuàng)專利事務所(普通合伙) 35101 | 代理人: | 高巍 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 電視劇 音頻 分割 方法 裝置 以及 設備 | ||
本發(fā)明公開了一種電視劇音頻分割方法和裝置以及設備。其中,所述方法包括:采用基線系統(tǒng)對電視劇音頻進行原始分割,得到原始分割結(jié)果,和采用半監(jiān)督自動語音識別方式,對該原始分割結(jié)果中的每段音頻進行自動語音識別,得到語音識別編碼結(jié)果,和采用動態(tài)規(guī)劃方式,對該語音識別編碼結(jié)果和關(guān)聯(lián)該電視劇音頻的原始標注文本進行對齊和比較,計算兩者之間的詞匹配率,和根據(jù)該詞匹配率,對該原始分割結(jié)果中的每段音頻進行重分割,和根據(jù)該進行重分割后的每段音頻,對聲學模型進行更新,以及根據(jù)該更新的聲學模型,將該電視劇音頻的語音段與對應文本標注對齊。通過上述方式,能夠?qū)崿F(xiàn)電視劇音頻的語音段與對應文本標注的對齊。
技術(shù)領域
本發(fā)明涉及音頻技術(shù)領域,尤其涉及一種電視劇音頻分割方法和裝置以及設備。
背景技術(shù)
大數(shù)據(jù)時代移動互聯(lián)網(wǎng)的發(fā)展正在改變傳統(tǒng)音頻識別語料的獲取方式,特別是海量數(shù)據(jù)如新聞廣播、電視語料等獲取變得越來越容易。如何對海量語料過濾,篩選及切分成適合用于音頻識別系統(tǒng)所需的音頻段或句子等技術(shù)的研究顯得日益迫切。
通常語音識別系統(tǒng)訓練語料中的人工標注信息已包含了準確的語音段起始和結(jié)束時間標簽,且語音段與其對應的文本標注是對齊的,即文本標注也是事先分好段的。
然而,現(xiàn)有的電視劇音頻分割方案,因電視劇音頻的聲學環(huán)境復雜,往往只能獲得整段電視音頻及對應的文本標注,而無法得知電視劇音頻的語音段與文本標注的對應關(guān)系,無法實現(xiàn)電視劇音頻的語音段與對應文本標注的對齊。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提出一種電視劇音頻分割方法和裝置以及設備,能夠?qū)崿F(xiàn)電視劇音頻的語音段與對應文本標注的對齊。
根據(jù)本發(fā)明的一個方面,提供一種電視劇音頻分割方法,包括:采用基線系統(tǒng)對電視劇音頻進行原始分割,得到原始分割結(jié)果;采用半監(jiān)督自動語音識別方式,對所述原始分割結(jié)果中的每段音頻進行自動語音識別,得到語音識別編碼結(jié)果;采用動態(tài)規(guī)劃方式,對所述語音識別編碼結(jié)果和關(guān)聯(lián)所述電視劇音頻的原始標注文本進行對齊和比較,計算兩者之間的詞匹配率;根據(jù)所述詞匹配率,對所述原始分割結(jié)果中的每段音頻進行重分割;根據(jù)所述進行重分割后的每段音頻,對聲學模型進行更新;根據(jù)所述更新的聲學模型,將所述電視劇音頻的語音段與對應文本標注對齊。
其中,所述采用基線系統(tǒng)對電視劇音頻進行原始分割,得到原始分割結(jié)果,包括:采用基線系統(tǒng)對電視劇音頻提取感知線性預測系數(shù)和梅爾頻率倒譜系數(shù),根據(jù)所述感知線性預測系數(shù)和所述梅爾頻率倒譜系數(shù),使用已訓練好的純語音、音樂和背景噪聲高斯混合模型分類器將電視劇音頻分割成純語音、純音樂、純背景噪聲、帶噪語音和帶音樂語音的方式,對電視劇音頻進行原始分割,得到原始分割結(jié)果。
其中,所述采用半監(jiān)督自動語音識別方式,對所述原始分割結(jié)果中的每段音頻進行自動語音識別,得到語音識別編碼結(jié)果,包括:將與所述電視劇音頻的關(guān)聯(lián)的標注文本用來構(gòu)建集內(nèi)語文模型,并與采用集外文本數(shù)據(jù)訓練的通用背景語言模型進行插值得到一個有偏的語言模型用于語音識別,根據(jù)所述有偏的語言模型,采用半監(jiān)督自動語音識別方式,對所述原始分割結(jié)果中的每段音頻進行自動語音識別,得到語音識別編碼結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通科技股份有限公司,未經(jīng)廈門快商通科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010084690.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種查爾酮類似物及其應用
- 下一篇:一種電流電壓互感器





