[發(fā)明專利]一種獲取語音識別模型訓(xùn)練數(shù)據(jù)的方法及裝置在審
| 申請?zhí)枺?/td> | 202011576869.2 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112802469A | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設(shè)計(jì))人: | 張彬彬;楊超;陳曉宇;曾晨晨 | 申請(專利權(quán))人: | 出門問問(武漢)信息科技有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/06;H04N5/278 |
| 代理公司: | 北京樂知新創(chuàng)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11734 | 代理人: | 劉婧 |
| 地址: | 430223 湖北省武漢市東湖新技術(shù)*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 獲取 語音 識別 模型 訓(xùn)練 數(shù)據(jù) 方法 裝置 | ||
本發(fā)明公開了一種獲取語音識別模型訓(xùn)練數(shù)據(jù)的方法及裝置,該方法包括:獲取視頻流中的第t幀圖像;當(dāng)?shù)趖幀圖像包括第一字幕區(qū)域,獲取視頻流中的第t+1幀圖像,并從第t+1幀圖像中確定與第一字幕區(qū)域的位置坐標(biāo)相同的區(qū)域作為第二字幕區(qū)域;當(dāng)?shù)诙帜粎^(qū)域與第一字幕區(qū)域的相似度大于或等于預(yù)設(shè)閾值,以步長為1,依次獲取視頻流中的第t+2、第t+3…第t+n幀圖像,直到第t+n幀圖像對應(yīng)的第n+1字幕區(qū)域與第t+n?1幀圖像對應(yīng)的第n字幕區(qū)域的相似度小于預(yù)設(shè)閾值,并計(jì)算第t幀圖像至第t+n?1幀圖像之間的時(shí)間段;提取視頻流中時(shí)間段的語音,得到語音數(shù)據(jù);對第一字幕區(qū)域至第n字幕區(qū)域中的任意一個(gè)字幕區(qū)域進(jìn)行文本識別,得到與語音數(shù)據(jù)對應(yīng)的標(biāo)注文本數(shù)據(jù)。
技術(shù)領(lǐng)域
本申請涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種獲取語音識別模型訓(xùn)練數(shù)據(jù)的方法及裝置。
背景技術(shù)
目前,基于深度學(xué)習(xí)的語音識別模型識別語音已經(jīng)成為語音識別的主流方法,并在語音識別的各個(gè)任務(wù)和應(yīng)用場景中取得了較好的效果。基于深度學(xué)習(xí)的語音識別模型的訓(xùn)練數(shù)據(jù)為大量的語音數(shù)據(jù)和對應(yīng)的標(biāo)注文本數(shù)據(jù)。當(dāng)語音數(shù)據(jù)和對應(yīng)的標(biāo)注文本數(shù)據(jù)的數(shù)據(jù)量不足時(shí),語音識別模型的性能就不夠魯棒,識別率就不夠準(zhǔn)確。因此,獲取大量的語音數(shù)據(jù)和對應(yīng)的標(biāo)注文本數(shù)據(jù)對提高語音識別的識別率至關(guān)重要。然而,獲取語音數(shù)據(jù)對應(yīng)的標(biāo)注文本數(shù)據(jù)時(shí),需要人工根據(jù)聽到的語音進(jìn)行逐字標(biāo)注,因此,獲取大量的語音數(shù)據(jù)和對應(yīng)的標(biāo)注文本數(shù)據(jù)需要特別高昂的人力、物力和財(cái)力等資源。
因此,如何通過低成本、自動(dòng)化的方式獲得語音識別模型的訓(xùn)練數(shù)據(jù)意義重大。
本發(fā)明實(shí)施例通過提供一種獲取語音識別模型訓(xùn)練數(shù)據(jù)的方法及裝置,用以解決現(xiàn)有技術(shù)中存在獲取大量的語音數(shù)據(jù)和對應(yīng)的標(biāo)注文本數(shù)據(jù)需要特別高昂的人力、物力和財(cái)力等資源的技術(shù)問題。
為了解決上述問題,第一方面,本發(fā)明實(shí)施例提供了一種獲取語音識別模型訓(xùn)練數(shù)據(jù)的方法,包括:獲取視頻流中的第t幀圖像;當(dāng)?shù)趖幀圖像包括第一字幕區(qū)域,獲取視頻流中的第t+1幀圖像,并從第t+1幀圖像中確定與第一字幕區(qū)域的位置坐標(biāo)相同的區(qū)域作為第二字幕區(qū)域;當(dāng)?shù)诙帜粎^(qū)域與第一字幕區(qū)域的相似度大于或等于預(yù)設(shè)閾值,以步長為1,依次獲取視頻流中的第t+2、第t+3…第t+n幀圖像,直到第t+n幀圖像對應(yīng)的第n+1字幕區(qū)域與第t+n-1幀圖像對應(yīng)的第n字幕區(qū)域的相似度小于預(yù)設(shè)閾值,并計(jì)算第t幀圖像至第t+n-1幀圖像之間的時(shí)間段;提取視頻流中時(shí)間段的語音,得到語音數(shù)據(jù);對第t幀至第t+n-1幀圖像對應(yīng)的第一字幕區(qū)域至第n字幕區(qū)域中的任意一個(gè)字幕區(qū)域進(jìn)行文本識別,得到與語音數(shù)據(jù)對應(yīng)的標(biāo)注文本數(shù)據(jù)。
可選地,第t幀圖像包括第一字幕區(qū)域,包括:從第t幀圖像中識別出各文本區(qū)域,并計(jì)算各文本區(qū)域的位置坐標(biāo);根據(jù)各文本區(qū)域的位置坐標(biāo)及第t幀圖像的尺寸確定各文本區(qū)域在第t幀圖像中的位置;當(dāng)至少一個(gè)文本區(qū)域在第t幀圖像中的位置包括特定位置,確定第t幀圖像包括第一字幕區(qū)域。
可選地,通過結(jié)構(gòu)相似性度量方法計(jì)算第二字幕區(qū)域與第一字幕區(qū)域的相似度。
可選地,對第t幀至第t+n-1幀圖像對應(yīng)的第一字幕區(qū)域至第n字幕區(qū)域中的任意一個(gè)字幕區(qū)域進(jìn)行文本識別,得到與語音數(shù)據(jù)對應(yīng)的標(biāo)注文本數(shù)據(jù),包括:從第t幀至第t+n-1幀圖像中的任意一幀圖像中截取對應(yīng)的字幕區(qū)域,得到子圖像;將子圖像輸入文本識別模型進(jìn)行文本識別,得到與語音數(shù)據(jù)對應(yīng)的標(biāo)注文本數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于出門問問(武漢)信息科技有限公司,未經(jīng)出門問問(武漢)信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011576869.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





