[發(fā)明專利]一種任意字符組合的OCR數(shù)據(jù)生成的方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110978686.1 | 申請(qǐng)日: | 2021-08-25 |
| 公開(公告)號(hào): | CN113435163B | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 苗功勛;孫強(qiáng);陳姝;熊英超;韋文峰 | 申請(qǐng)(專利權(quán))人: | 南京中孚信息技術(shù)有限公司 |
| 主分類號(hào): | G06F40/109 | 分類號(hào): | G06F40/109;G06F40/242;G06F40/279;G06K9/20 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 210000 江蘇省南京市浦*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 任意 字符 組合 ocr 數(shù)據(jù) 生成 方法 | ||
本發(fā)明公開了光學(xué)字符識(shí)別技術(shù)領(lǐng)域的一種任意字符組合的OCR數(shù)據(jù)生成的方法,包括通過字符字典、字體庫(kù)和語(yǔ)料庫(kù)生成字符?字體映射字典,得到字符和所有支持的字體之間的對(duì)應(yīng)關(guān)系;從語(yǔ)料庫(kù)中獲取待生成圖片的一行文本,切分文本成多個(gè)字符串,找到各個(gè)字符串與其對(duì)應(yīng)的字體;將找到的各個(gè)字符串對(duì)應(yīng)的字體進(jìn)行排列得到文字圖片;將文字圖片進(jìn)行拼接得到最終圖片;本發(fā)明改進(jìn)了以往OCR數(shù)據(jù)生成時(shí),在背景圖片上繪制指定文字的環(huán)節(jié),實(shí)現(xiàn)了任意字符組合的OCR數(shù)據(jù)生成方式,簡(jiǎn)單高效。
技術(shù)領(lǐng)域
本發(fā)明涉及光學(xué)字符識(shí)別技術(shù)領(lǐng)域,具體為一種任意字符組合的OCR數(shù)據(jù)生成的方法。
背景技術(shù)
目前,OCR(光學(xué)字符識(shí)別, Optical Character Recognition)領(lǐng)域的主流算法分為兩種,一種是兩階段算法,另一種是端到端算法。兩階段算法一般由文字檢測(cè)算法和文字識(shí)別算法組成,主要思路是,先使用文字檢測(cè)算法從圖像中獲取文本行的檢測(cè)框,然后再使用文字識(shí)別算法去識(shí)別文本框中的內(nèi)容。端到端算法是在一個(gè)算法中完成文字檢查和文字識(shí)別。雖然端到端算法模型更小,速度更快,但是多用于固定場(chǎng)景的OCR,如票據(jù)類、銀行卡等場(chǎng)景,所以對(duì)于輸入較為靈活的場(chǎng)景,一般還是采用兩階段算法。
在兩階段算法中,文字檢測(cè)算法相對(duì)實(shí)現(xiàn)更加簡(jiǎn)單,所需的數(shù)據(jù)量較少,文字識(shí)別算法則是OCR的核心模塊,直接影響輸出結(jié)果的準(zhǔn)確性,往往需要上百上千萬(wàn)的數(shù)據(jù)進(jìn)行訓(xùn)練,如果全用人工標(biāo)注,將消耗大量的人力,所以一般需要使用數(shù)據(jù)生成的方法以達(dá)到海量數(shù)據(jù)的需求。
對(duì)于文字識(shí)別算法而言,輸入是文字圖片,輸出是圖片對(duì)應(yīng)的文字,所以在生成此類OCR數(shù)據(jù)時(shí),需要使用文字生成一張對(duì)應(yīng)的文字圖片,同時(shí)保存文字和文字圖片,一般生成步驟如下:
1.從各個(gè)渠道獲取語(yǔ)料庫(kù),語(yǔ)料庫(kù)的形式多樣,可以是文章、字典也可以是短語(yǔ)。
2.根據(jù)實(shí)際語(yǔ)言需求和目標(biāo)需求,一般會(huì)采用隨機(jī)切割語(yǔ)料中的文章長(zhǎng)度或者隨機(jī)抽取字符組合等各種方式,從語(yǔ)料庫(kù)中生成文本內(nèi)容。
3.生成一張透明圖片,一般為了方便更換文字背景,生成更加真實(shí)的圖片,會(huì)先生成一張透明圖片,在這張透明圖片上生成文字,然后把透明文字圖片粘貼到目標(biāo)背景圖片上。當(dāng)然也有些方法不事先成透明圖片,而是直接在一張背景圖片進(jìn)行裁剪等操作作為文字繪制時(shí)的背景圖片。
4.文字的字體、字體大小、字體顏色等參數(shù)設(shè)置,為了更加接近真實(shí)圖片,往往會(huì)根據(jù)實(shí)際需求,設(shè)定不同的參數(shù)。
5.使用字體在透明圖片(背景圖片)上繪制文字,這一步是文字圖片生成過程中的核心環(huán)節(jié),文字生成的好壞直接影響算法模型的準(zhǔn)確性。
6.把透明文字圖片進(jìn)行變換,一般會(huì)進(jìn)行加噪,或者變形,加背景圖片等各種變換操作,這樣就生成了最終的文字圖片。
現(xiàn)有的OCR數(shù)據(jù)生成方法中,在以上的各個(gè)步驟中,一般都已經(jīng)有了各種方法實(shí)現(xiàn),而對(duì)于5這個(gè)環(huán)節(jié),單一圖片往往只用單一字體生成數(shù)據(jù),由于字體是分語(yǔ)言的且單個(gè)字體支持的字符數(shù)量有限,對(duì)于不支持的字符,會(huì)用空白或者“#”之類的字符代替,所以生成的數(shù)據(jù)有很大的局限性,主要問題如下:
1. 無(wú)法實(shí)現(xiàn)多語(yǔ)言混合的數(shù)據(jù)生成,一般來說,單個(gè)字體一般只支持一到兩種語(yǔ)言,如果給定的語(yǔ)料使用多種語(yǔ)言,則無(wú)法生成給定文本對(duì)應(yīng)的圖片,而實(shí)際使用時(shí),存在多語(yǔ)言混用的情況。
2. 無(wú)法支持不常用字符的數(shù)據(jù)生成,以中文為例,中文常見漢字約3500個(gè),但中文實(shí)際有上萬(wàn)的漢字,單個(gè)字體有時(shí)甚至都無(wú)法覆蓋3500個(gè)漢字,更不用說其他不常用的漢字。
3. 無(wú)法支持特殊符號(hào)的數(shù)據(jù)生成,諸如★、⊙、█、⊕等特殊符號(hào),還有一些數(shù)學(xué)符號(hào),有的字體支持這些符號(hào),更多的字體不支持這些符號(hào),如果想利用指定字體生成數(shù)據(jù)時(shí),語(yǔ)料庫(kù)存在這些符號(hào),則會(huì)導(dǎo)致生成的數(shù)據(jù)有誤,文本內(nèi)容無(wú)法與生成的圖片一致,為模型訓(xùn)練帶來了干擾。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京中孚信息技術(shù)有限公司,未經(jīng)南京中孚信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110978686.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- OCR文檔識(shí)別方法及其裝置
- 智能調(diào)度多OCR識(shí)別引擎的方法及設(shè)備
- OCR掛接方法、裝置與設(shè)備
- 一種用于教學(xué)系統(tǒng)的OCR識(shí)別方法、裝置和終端
- OCR識(shí)別模型的確定方法及裝置
- 基于聯(lián)邦OCR模型的字符檢測(cè)方法、裝置、設(shè)備和介質(zhì)
- OCR系統(tǒng)的評(píng)估方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- OCR模型訓(xùn)練方法、系統(tǒng)及裝置
- 識(shí)別轉(zhuǎn)換圖像文件的方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- OCR訓(xùn)練數(shù)據(jù)生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)





