[發明專利]訓練音頻語種識別模型的方法、視頻檢測方法及其裝置有效
| 申請號: | 202110470368.4 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113076932B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 謝強;鄧天生;于天寶;贠挺;陳國慶;林賽群 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V20/30;G06V10/82;G06N3/0464;G06N3/08;G10L15/00;G10L15/06 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 趙林琳;張昊 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 音頻 語種 識別 模型 方法 視頻 檢測 及其 裝置 | ||
1.一種視頻檢測方法,包括:
從待檢測的視頻文件中獲取音頻文件和多個圖像;
從所述音頻文件中獲取多個人聲音頻片段;
對所述多個人聲音頻片段進行語種識別;
對所述多個圖像進行字幕語種檢測;以及
如果所述多個人聲音頻片段被確定為包含非目標語種語音并且所述多個圖像被確定為不包含目標語種字幕,確定所述待檢測的視頻文件的檢測結果,
其中對所述多個人聲音頻片段進行語種識別包括:使用根據以下操作訓練的音頻語種識別模型,對所述多個人聲音頻片段進行檢測:
從人聲音頻文件中獲取多個音頻片段;
基于所述多個音頻片段中包含非目標語種語音的音頻片段,確定用于訓練所述音頻語種識別模型的第一樣本數據集;
基于所述多個音頻片段中包含目標語種語音的音頻片段,確定用于訓練所述音頻語種識別模型的第二樣本數據集;
基于所述第一樣本數據集和所述第二樣本數據集,訓練所述音頻語種識別模型;
使用經訓練的所述音頻語種識別模型對不同于所述人聲音頻文件的另一人聲音頻文件中的音頻片段進行檢測,所述另一人聲音頻文件是預先確定的包含非目標語種語音的音頻文件;
響應于所述另一人聲音頻文件中的音頻片段被檢測為包含目標語種語音,將所述另一音頻文件中的音頻片段加入所述第一樣本數據集,用于進一步訓練所述音頻語種識別模型;以及
響應于所述另一人聲音頻文件中的音頻片段被檢測為包含非目標語種語音,將所述另一音頻文件中的音頻片段加入所述第二樣本數據集,用于進一步訓練所述音頻語種識別模型,并且
其中從所述音頻文件中獲取所述多個人聲音頻片段包括:
基于人聲檢測算法確定所述音頻文件中的具有人聲的音頻片段的起始時間;以及
至少將音頻時長超過閾值時長的具有人聲的音頻片段確定為所述多個人聲音頻片段,以及
其中對所述多個圖像進行字幕語種檢測包括:
對所述多個圖像中的至少一個圖像的預定位置進行目標語種字符檢測;以及
如果所述預定位置不包含目標語種字符或者如果所述預定位置包含目標語種字符且所述目標語種字符的數目小于閾值數目,確定所述多個圖像不包含目標語種字幕。
2.根據權利要求1所述的方法,其中使用所述音頻語種識別模型對所述多個人聲音頻片段進行檢測包括:
分別預測所述多個人聲音頻片段中包含非目標語種語音的概率。
3.根據權利要求1所述的方法,其中所述多個人聲音頻片段均被調整為具有預定時長。
4.根據權利要求1所述的方法,其中所述目標語種語音是中文語音,并且所述非目標語種語音是非中文語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110470368.4/1.html,轉載請聲明來源鉆瓜專利網。





