[發(fā)明專利]數(shù)據(jù)收集方法、裝置、存儲介質(zhì)及電子設(shè)備有效
| 申請?zhí)枺?/td> | 202010230599.3 | 申請日: | 2020-03-27 |
| 公開(公告)號: | CN111445902B | 公開(公告)日: | 2023-05-30 |
| 發(fā)明(設(shè)計)人: | 王康;何怡 | 申請(專利權(quán))人: | 北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/183;G06V20/40;G06V20/62;G06V10/22;G06V10/774 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447 | 代理人: | 曹寒梅 |
| 地址: | 100041 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 收集 方法 裝置 存儲 介質(zhì) 電子設(shè)備 | ||
本公開涉及一種數(shù)據(jù)收集方法、裝置、存儲介質(zhì)及電子設(shè)備,以快速獲得高質(zhì)量文本語料。所述方法包括:從目標(biāo)視頻中獲取多個目標(biāo)視頻幀圖像;對所述多個目標(biāo)視頻幀圖像進(jìn)行OCR識別,以確定各個所述目標(biāo)視頻幀圖像包含的第一文本和所述第一文本的文本位置信息,所述第一文本的文本位置信息用于指示所述第一文本在目標(biāo)視頻幀圖像中出現(xiàn)的位置;根據(jù)各個所述文本位置信息,確定所述目標(biāo)視頻的字幕區(qū)域;根據(jù)所述字幕區(qū)域、所述第一文本和所述第一文本的文本位置信息,確定第二文本,所述第二文本取自文本位置信息所指示的位置處于所述字幕區(qū)域內(nèi)的第一文本;將所述第二文本確定為所述目標(biāo)視頻的文本語料。
技術(shù)領(lǐng)域
本公開涉及計算機(jī)技術(shù)領(lǐng)域,具體地,涉及一種數(shù)據(jù)收集方法、裝置、存儲介質(zhì)及電子設(shè)備。
背景技術(shù)
在語音處理領(lǐng)域,語音識別技術(shù)的效果優(yōu)劣依賴于訓(xùn)練數(shù)據(jù)的收集,例如,語言模型的訓(xùn)練數(shù)據(jù)是文本語料。目前,在收集語言模型所需的文本語料時,一般是從開源渠道獲得原始數(shù)據(jù),但是,由于這一數(shù)據(jù)獲取過程是包括對誤差的無差別獲取,因此,得到的數(shù)據(jù)中存在大量的噪聲數(shù)據(jù),若直接用作用于訓(xùn)練語言模型的文本語料,訓(xùn)練所得的語言模型效果較差。
發(fā)明內(nèi)容
提供該發(fā)明內(nèi)容部分以便以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實施方式部分被詳細(xì)描述。該發(fā)明內(nèi)容部分并不旨在標(biāo)識要求保護(hù)的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護(hù)的技術(shù)方案的范圍。
第一方面,本公開提供一種數(shù)據(jù)收集方法,所述方法包括:
從目標(biāo)視頻中獲取多個目標(biāo)視頻幀圖像;
對所述多個目標(biāo)視頻幀圖像進(jìn)行OCR識別,以確定各個所述目標(biāo)視頻幀圖像包含的第一文本和所述第一文本的文本位置信息,所述第一文本的文本位置信息用于指示所述第一文本在目標(biāo)視頻幀圖像中出現(xiàn)的位置;
根據(jù)各個所述文本位置信息,確定所述目標(biāo)視頻的字幕區(qū)域;
根據(jù)所述字幕區(qū)域、所述第一文本和所述第一文本的文本位置信息,確定第二文本,所述第二文本取自文本位置信息所指示的位置處于所述字幕區(qū)域內(nèi)的第一文本;
將所述第二文本確定為所述目標(biāo)視頻的文本語料。
第二方面,本公開提供一種數(shù)據(jù)收集裝置,所述裝置包括:
第一獲取模塊,用于從目標(biāo)視頻中獲取多個目標(biāo)視頻幀圖像;
識別模塊,用于對所述多個目標(biāo)視頻幀圖像進(jìn)行OCR識別,以確定各個所述目標(biāo)視頻幀圖像包含的第一文本和所述第一文本的文本位置信息,所述第一文本的文本位置信息用于指示所述第一文本在目標(biāo)視頻幀圖像中出現(xiàn)的位置;
第一確定模塊,用于根據(jù)各個所述文本位置信息,確定所述目標(biāo)視頻的字幕區(qū)域;
第二確定模塊,用于根據(jù)所述字幕區(qū)域、所述第一文本和所述第一文本的文本位置信息,確定第二文本,所述第二文本取自文本位置信息所指示的位置處于所述字幕區(qū)域內(nèi)的第一文本;
第三確定模塊,用于將所述第二文本確定為所述目標(biāo)視頻的文本語料。
第三方面,本公開提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理裝置執(zhí)行時實現(xiàn)本公開第一方面所述方法的步驟。
第四方面,本公開提供一種電子設(shè)備,包括:
存儲裝置,其上存儲有計算機(jī)程序;
處理裝置,用于執(zhí)行所述存儲裝置中的所述計算機(jī)程序,以實現(xiàn)本公開第一方面所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010230599.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





