[發(fā)明專利]訓(xùn)練音頻語(yǔ)種識(shí)別模型的方法、視頻檢測(cè)方法及其裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110470368.4 | 申請(qǐng)日: | 2021-04-28 |
| 公開(公告)號(hào): | CN113076932B | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計(jì))人: | 謝強(qiáng);鄧天生;于天寶;贠挺;陳國(guó)慶;林賽群 | 申請(qǐng)(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V20/30;G06V10/82;G06N3/0464;G06N3/08;G10L15/00;G10L15/06 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 趙林琳;張昊 |
| 地址: | 100080 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練 音頻 語(yǔ)種 識(shí)別 模型 方法 視頻 檢測(cè) 及其 裝置 | ||
本公開公開了訓(xùn)練音頻語(yǔ)種識(shí)別模型的方法、視頻檢測(cè)方法及其裝置,涉及人工智能領(lǐng)域,尤其涉及深度學(xué)習(xí)領(lǐng)域。具體實(shí)現(xiàn)方案為:從人聲音頻文件中獲取多個(gè)音頻片段;基于多個(gè)音頻片段中包含非目標(biāo)語(yǔ)種語(yǔ)音的音頻片段,確定用于訓(xùn)練音頻語(yǔ)種識(shí)別模型的第一樣本數(shù)據(jù)集;基于多個(gè)音頻片段中包含目標(biāo)語(yǔ)種語(yǔ)音的音頻片段,確定用于訓(xùn)練音頻語(yǔ)種識(shí)別模型的第二樣本數(shù)據(jù)集;以及基于第一樣本數(shù)據(jù)集和第二樣本數(shù)據(jù)集,訓(xùn)練音頻語(yǔ)種識(shí)別模型。以此方式,本公開的技術(shù)方案可以快速高效且低成本地完成對(duì)音頻語(yǔ)種識(shí)別模型的訓(xùn)練,從而準(zhǔn)確確定待測(cè)視頻文件的檢測(cè)結(jié)果。
技術(shù)領(lǐng)域
本公開涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及深度學(xué)習(xí)領(lǐng)域,具體地,涉及訓(xùn)練音頻語(yǔ)種識(shí)別模型的方法、視頻檢測(cè)方法、及其裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù)
隨著人民群眾的生活水平提升和科技的進(jìn)步,人們獲取信息和休閑娛樂(lè)的方式逐漸發(fā)生變化,視頻因其內(nèi)容豐富、信息密度高、趣味性強(qiáng)等特點(diǎn)迅速占據(jù)了人們的生活中的碎片時(shí)間。在搜索、推薦類的相關(guān)產(chǎn)品中,視頻是用戶較為喜歡的新的內(nèi)容呈現(xiàn)方式。部分視頻中的對(duì)話語(yǔ)言是外語(yǔ)且沒(méi)有中文字幕,導(dǎo)致大部分用戶很難理解視頻內(nèi)容。這樣就對(duì)用戶的信息獲取造成了障礙,減低了產(chǎn)品的用戶體驗(yàn)。
發(fā)明內(nèi)容
本公開提供了一種訓(xùn)練音頻語(yǔ)種識(shí)別模型的方法、視頻檢測(cè)方法、及其裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)程序產(chǎn)品。
根據(jù)本公開的第一方面,提供了一種訓(xùn)練音頻語(yǔ)種識(shí)別模型的方法。該方法可以包括從人聲音頻文件中獲取多個(gè)音頻片段。進(jìn)而,可以基于多個(gè)音頻片段中包含非目標(biāo)語(yǔ)種語(yǔ)音的音頻片段,確定用于訓(xùn)練音頻語(yǔ)種識(shí)別模型的第一樣本數(shù)據(jù)集。該方法還可以包括基于多個(gè)音頻片段中包含目標(biāo)語(yǔ)種語(yǔ)音的音頻片段,確定用于訓(xùn)練音頻語(yǔ)種識(shí)別模型的第二樣本數(shù)據(jù)集。此外,該方法可以進(jìn)一步包括基于第一樣本數(shù)據(jù)集和第二樣本數(shù)據(jù)集,訓(xùn)練音頻語(yǔ)種識(shí)別模型。
根據(jù)本公開的第二方面,提供了一種視頻檢測(cè)方法,該方法可以包括從待檢測(cè)的視頻文件中獲取音頻文件和多個(gè)圖像。進(jìn)而,可以從音頻文件中獲取多個(gè)人聲音頻片段。該方法可以進(jìn)一步包括對(duì)多個(gè)人聲音頻片段進(jìn)行語(yǔ)種識(shí)別,并且對(duì)多個(gè)圖像進(jìn)行字幕語(yǔ)種檢測(cè)。此外,該方法還可以包括如果多個(gè)人聲音頻片段被確定為包含非目標(biāo)語(yǔ)種語(yǔ)音并且多個(gè)圖像被確定為不包含目標(biāo)語(yǔ)種字幕,確定待檢測(cè)的視頻文件的檢測(cè)結(jié)果。
在本公開的第三方面中,提供了一種訓(xùn)練音頻語(yǔ)種識(shí)別模型的裝置,包括:音頻片段獲取模塊,被配置為從人聲音頻文件中獲取多個(gè)音頻片段;第一樣本數(shù)據(jù)集確定模塊,被配置為基于多個(gè)音頻片段中包含非目標(biāo)語(yǔ)種語(yǔ)音的音頻片段,確定用于訓(xùn)練音頻語(yǔ)種識(shí)別模型的第一樣本數(shù)據(jù)集;第二樣本數(shù)據(jù)集確定模塊,被配置為基于多個(gè)音頻片段中包含目標(biāo)語(yǔ)種語(yǔ)音的音頻片段,確定用于訓(xùn)練音頻語(yǔ)種識(shí)別模型的第二樣本數(shù)據(jù)集;以及音頻語(yǔ)種識(shí)別模型訓(xùn)練模塊,被配置為基于第一樣本數(shù)據(jù)集和第二樣本數(shù)據(jù)集,訓(xùn)練音頻語(yǔ)種識(shí)別模型。
在本公開的第四方面中,提供了一種視頻檢測(cè)裝置,包括:解析模塊,被配置為從待檢測(cè)的視頻文件中獲取音頻文件和多個(gè)圖像;人聲音頻片段獲取模塊,被配置為從音頻文件中獲取多個(gè)人聲音頻片段;人聲語(yǔ)種識(shí)別模塊,被配置為對(duì)多個(gè)人聲音頻片段進(jìn)行語(yǔ)種識(shí)別;字幕語(yǔ)種檢測(cè)模塊,被配置為對(duì)多個(gè)圖像進(jìn)行字幕語(yǔ)種檢測(cè);以及后處理模塊,被配置為如果多個(gè)人聲音頻片段被確定為包含非目標(biāo)語(yǔ)種語(yǔ)音并且多個(gè)圖像被確定為不包含目標(biāo)語(yǔ)種字幕,確定待檢測(cè)的視頻文件的檢測(cè)結(jié)果。
在本公開的第五方面中,提供了一種電子設(shè)備,包括一個(gè)或多個(gè)處理器;以及存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)根據(jù)本公開的第一方面的方法。
在本公開的第六方面中,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本公開的第一方面的方法。
在本公開的第七方面中,提供了一種計(jì)算機(jī)程序產(chǎn)品,計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本公開的第一方面的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110470368.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置
- 支持多語(yǔ)種接口的電子裝置及方法
- 一種模塊化語(yǔ)種解析裝置及其實(shí)現(xiàn)方法
- 一種終端語(yǔ)種的配置方法及裝置
- 一種多語(yǔ)種文字歸碼轉(zhuǎn)傳裝置及方法
- 一種語(yǔ)種識(shí)別方法、裝置、翻譯機(jī)、介質(zhì)和設(shè)備
- 自動(dòng)識(shí)別語(yǔ)種的翻譯方法、裝置及設(shè)備
- 一種語(yǔ)種識(shí)別模型訓(xùn)練、語(yǔ)種識(shí)別的方法和相關(guān)裝置
- 語(yǔ)種識(shí)別方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 語(yǔ)種識(shí)別方法
- 人機(jī)對(duì)話方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





