[發(fā)明專利]基于深度學(xué)習(xí)的交疊文本行定位分割方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201911053860.0 | 申請(qǐng)日: | 2019-10-31 |
| 公開(公告)號(hào): | CN110956088B | 公開(公告)日: | 2023-06-30 |
| 發(fā)明(設(shè)計(jì))人: | 王勇;朱軍民;康鐵鋼;施維 | 申請(qǐng)(專利權(quán))人: | 北京易道博識(shí)科技有限公司 |
| 主分類號(hào): | G06V30/40 | 分類號(hào): | G06V30/40;G06V30/148;G06V30/162;G06V30/19;G06V10/82 |
| 代理公司: | 北京金智普華知識(shí)產(chǎn)權(quán)代理有限公司 11401 | 代理人: | 巴曉艷 |
| 地址: | 100083 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 交疊 文本 定位 分割 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)的交疊文本行定位分割方法及系統(tǒng),屬于計(jì)算機(jī)視覺領(lǐng)域。該方法包括:對(duì)原始圖像進(jìn)行預(yù)處理;輸入到已訓(xùn)練的實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò)中,輸出非交疊文本行區(qū)域特征分?jǐn)?shù)圖、交疊文本行區(qū)域特征分?jǐn)?shù)圖以及文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖;獲取非交疊文本行區(qū)域和交疊文本行區(qū)域的輪廓;合并非交疊文本行區(qū)域至交疊文本行區(qū)域;對(duì)文本行區(qū)域進(jìn)行四邊形擬合,獲取文本行區(qū)域的外接四邊形,實(shí)現(xiàn)交疊文本行的定位分割。本發(fā)明能夠非常有效的解決交疊文本行定位分割的難題,能夠完成傳統(tǒng)方法無法完成的任務(wù)。并且,只需要較少的訓(xùn)練數(shù)據(jù)和訓(xùn)練迭代輪次配合簡(jiǎn)單的后處理,就能達(dá)到很好的算法性能。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域,尤其是一種基于深度學(xué)習(xí)的交疊文本行定位分割方法及系統(tǒng)。
背景技術(shù)
在很多應(yīng)用場(chǎng)景中,都存在將文檔圖片內(nèi)容進(jìn)行電子化,以生成結(jié)構(gòu)化的數(shù)據(jù),并完成自動(dòng)化錄入的需求。這類需求可以使用OCR(Optical?Character?Recognition)技術(shù)解決。通常,OCR技術(shù)包含文本檢測(cè)(text?detection)和文本識(shí)別(text?recognition)兩大步驟。傳統(tǒng)的文本檢測(cè)方法通常采用連通域分析(Connected?Component?Analysis,CCA)或者滑動(dòng)窗口檢測(cè)的機(jī)制(Sliding?Window,SW)。這些方法通常需要手工設(shè)計(jì)一系列規(guī)則,提取圖像中低級(jí)別或中等級(jí)別的特征,并結(jié)合復(fù)雜的預(yù)處理和后處理流程,才能完成文本檢測(cè)的任務(wù)。受限于手工設(shè)計(jì)規(guī)則有限的特征表示能力以及復(fù)雜的處理流程,這些傳統(tǒng)的方法很難有比價(jià)高的性能表現(xiàn),尤其在一些比較困難的識(shí)別場(chǎng)景下,如模糊文字,交疊文字,復(fù)雜背景的場(chǎng)景文字等。
近些年,深度學(xué)習(xí)技術(shù)有了快速的發(fā)展,并成功地應(yīng)用到文本檢測(cè)和識(shí)別任務(wù)上。本質(zhì)上,深度學(xué)習(xí)屬于特征學(xué)習(xí)的算法,這些算法通過自動(dòng)的學(xué)習(xí)和提取輸入對(duì)象(圖像,文本等)的特征,擬合特定的目標(biāo)輸出標(biāo)簽,從而近似一個(gè)從輸入到輸出的潛在的函數(shù)映射。一個(gè)深度學(xué)習(xí)模型通常由一系列順序的運(yùn)算組成,這些運(yùn)算必須是可微分的,從而可以采用梯度下降等優(yōu)化方法來實(shí)現(xiàn)端到端的訓(xùn)練優(yōu)化。
盡管深度學(xué)習(xí)技術(shù)對(duì)于文檔文本檢測(cè)算法的性能帶來了很大的提升,甚至對(duì)于較難的場(chǎng)景文本檢測(cè)任務(wù)也有比較大的提升作用,但是不得不承認(rèn),一些特殊的比較困難的文本檢測(cè)任務(wù),仍具有很大的挑戰(zhàn)性,如交疊文本行的檢測(cè)。如圖1所示。這類交疊的文本行大量存在于票據(jù)、表單、以及文檔等圖片中,通常由偏移、傾斜、甚至嵌套打印等原因引起。如果能很好的解決該類文本的檢測(cè)和識(shí)別問題,對(duì)于此類對(duì)象的結(jié)構(gòu)化錄入的性能會(huì)有很大的提升,因此具有很大的實(shí)際應(yīng)用價(jià)值。
發(fā)明內(nèi)容
本發(fā)明涉及一種基于深度學(xué)習(xí)的交疊文本行的定位分割方法,能夠很好的解決掃描儀、高拍儀和手機(jī)拍攝的各種類型票據(jù)、表單、文檔圖像中,出現(xiàn)的交疊文本行的檢測(cè)問題,為后續(xù)的識(shí)別任務(wù)提供更加精確的文本行區(qū)域信息,以提升整體識(shí)別的精度,進(jìn)而高質(zhì)量的完成結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)錄入工作。
根據(jù)本發(fā)明的第一方面,提供一種基于深度學(xué)習(xí)的交疊文本行定位分割方法,其特征在于,所述方法包括以下步驟:
步驟1,輸入包含交疊文本行的原始圖像,對(duì)所述原始圖像進(jìn)行預(yù)處理;
步驟2,對(duì)實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將預(yù)處理后的原始圖像輸入到已訓(xùn)練的實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò)中,輸出非交疊文本行區(qū)域特征分?jǐn)?shù)圖、交疊文本行區(qū)域特征分?jǐn)?shù)圖以及文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖;
步驟3,通過連通域分析方法,基于非交疊文本行區(qū)域特征分?jǐn)?shù)圖、交疊文本行區(qū)域特征分?jǐn)?shù)圖以及文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖獲取非交疊文本行區(qū)域和交疊文本行區(qū)域的輪廓;
步驟4,根據(jù)非交疊文本行區(qū)域和交疊文本行區(qū)域的輪廓,合并非交疊文本行區(qū)域至交疊文本行區(qū)域;
步驟5,對(duì)合并后的文本行區(qū)域進(jìn)行四邊形擬合,以獲取文本行區(qū)域的外接四邊形,實(shí)現(xiàn)交疊文本行的定位分割。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京易道博識(shí)科技有限公司,未經(jīng)北京易道博識(shí)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911053860.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





