[發明專利]數據處理方法、電子設備及計算機可讀介質在審
| 申請號: | 202010733797.1 | 申請日: | 2020-07-27 |
| 公開(公告)號: | CN111860389A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 秦勇;李兵 | 申請(專利權)人: | 北京易真學思教育科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G10L15/26 |
| 代理公司: | 北京合智同創知識產權代理有限公司 11545 | 代理人: | 李杰;蘭淑鐸 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 電子設備 計算機 可讀 介質 | ||
本發明實施例公開了一種數據處理方法、電子設備和計算機可讀介質,其中,一種數據處理方法包括:對第一文本圖像進行文本檢測,獲得所述第一文本圖像中的文本區域的信息;根據所述文本區域的信息,對所述第一文本圖像進行圖像截取,獲得對應的不包含文本的第一截取后圖像;獲取多個文本句子,并將所述多個文本句子分別與所述第一截取后圖像融合,獲得多個第二文本圖像;以所述多個第二文本圖像為樣本圖像,以各所述第二文本圖像對應的文本句子的文本內容為所述第二文本圖像的文本標注,構建用于對文本識別模型進行訓練的訓練樣本。通過本發明實施例,提高了用于對文本識別模型進行訓練的訓練樣本的構建效率。
技術領域
本發明實施例涉及計算機技術領域,尤其涉及一種數據處理方法、電子設備和計算機可讀介質。
背景技術
隨著機器學習技術的發展,神經網絡模型在各方面應用中都取得了重大進展。例如,目前神經網絡模型被廣泛應用于語音識別、文本識別等等方面。
雖然在很多方面,基于機器學習技術的神經網絡模型的識別精度已經相當精準。但是,機器學習有著天然的局限性,例如,需要大量的訓練數據對神經網絡模型進行訓練,需要進行大量的數據處理等等。目前,訓練數據常用的獲取方法都是通過人工采集數據,人工進行標注,以形成訓練數據,訓練數據的規模越大訓練效果也越好。以語音識別為例,語音識別模型的輸入為語音片段,輸出為識別的文本句子,因此語音識別模型需要大量的語音片段及其對應的文本句子作為訓練數據。用于進行文本識別的神經網絡模型也是如此,同樣需要大量的文本圖像作為訓練數據進行模型訓練。
與此同時,這些模型在應用階段,需要對全部數據如全部待處理的文本圖像等進行處理,需要處理的數據量巨大。
由上可見,現有的神經網絡模型要么存在著因人工采集和標注訓練數據,使得神經網絡模型的訓練效率低下的問題;要么存在著因需處理數據量大,而使數據處理效率低下的問題。但不管是哪種問題,都從整體上影響著神經網絡模型的處理效率。
發明內容
本發明提供了一種數據處理方案,以至少部分解決上述問題中的一種問題。
根據本發明實施例的第一方面,提供了一種數據處理方法,包括:對第一文本圖像進行文本檢測,獲得所述第一文本圖像中的文本區域的信息;根據所述文本區域的信息,對所述第一文本圖像進行圖像截取,獲得對應的不包含文本的第一截取后圖像;獲取多個文本句子,并將所述多個文本句子分別與所述第一截取后圖像融合,獲得多個第二文本圖像;以所述多個第二文本圖像為樣本圖像,以各所述第二文本圖像對應的文本句子的文本內容為所述第二文本圖像的文本標注,構建用于對文本識別模型進行訓練的訓練樣本。
根據本發明實施例的第二方面,提供了另一種數據處理方法,包括:從視頻中獲取視頻幀圖像序列;分別對所述視頻幀圖像序列中的每個視頻幀圖像進行文本檢測,獲得每個所述視頻幀圖像中的字幕區域的信息;利用文本識別模型根據所述字幕區域的信息對視頻幀圖像進行文本識別,獲得至少一個視頻幀圖像集合以及所述視頻幀圖像集合對應的字幕內容,其中,所述視頻幀圖像集合中各視頻幀圖像對應的字幕區域滿足預設相似度,所述文本識別模型基于第一方面所述的數據處理方法構建的訓練樣本進行訓練獲得;根據每個視頻幀圖像集合中的視頻幀圖像的時間信息,確定該視頻幀圖像集合的視頻起始時間點和視頻結束時間點;從所述視頻中獲得取與所述視頻起始時間點和所述視頻結束時間點對應的音頻數據;根據該視頻幀圖像集合對應的字幕內容和所述音頻數據,構建用于對語音識別模型進行訓練的訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京易真學思教育科技有限公司,未經北京易真學思教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010733797.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電動汽車蓄電池充電控制方法及裝置
- 下一篇:一種工廠化養殖投料系統





