[發(fā)明專利]基于深度學(xué)習(xí)的交疊文本行定位分割方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201911053860.0 | 申請(qǐng)日: | 2019-10-31 |
| 公開(kāi)(公告)號(hào): | CN110956088B | 公開(kāi)(公告)日: | 2023-06-30 |
| 發(fā)明(設(shè)計(jì))人: | 王勇;朱軍民;康鐵鋼;施維 | 申請(qǐng)(專利權(quán))人: | 北京易道博識(shí)科技有限公司 |
| 主分類號(hào): | G06V30/40 | 分類號(hào): | G06V30/40;G06V30/148;G06V30/162;G06V30/19;G06V10/82 |
| 代理公司: | 北京金智普華知識(shí)產(chǎn)權(quán)代理有限公司 11401 | 代理人: | 巴曉艷 |
| 地址: | 100083 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 交疊 文本 定位 分割 方法 系統(tǒng) | ||
1.一種基于深度學(xué)習(xí)的交疊文本行定位分割方法,其特征在于,所述方法包括以下步驟:
步驟1,輸入包含交疊文本行的原始圖像,對(duì)所述原始圖像進(jìn)行預(yù)處理;
步驟2,對(duì)實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將預(yù)處理后的原始圖像輸入到已訓(xùn)練的實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò)中,輸出非交疊文本行區(qū)域特征分?jǐn)?shù)圖、交疊文本行區(qū)域特征分?jǐn)?shù)圖以及文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖;
步驟3,通過(guò)連通域分析方法,基于非交疊文本行區(qū)域特征分?jǐn)?shù)圖、交疊文本行區(qū)域特征分?jǐn)?shù)圖以及文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖獲取非交疊文本行區(qū)域和交疊文本行區(qū)域的輪廓;
步驟4,根據(jù)非交疊文本行區(qū)域和交疊文本行區(qū)域的輪廓,合并非交疊文本行區(qū)域至交疊文本行區(qū)域;
步驟5,對(duì)合并后的文本行區(qū)域進(jìn)行四邊形擬合,以獲取文本行區(qū)域的外接四邊形,實(shí)現(xiàn)交疊文本行的定位分割,
其中,所述步驟3具體包括:
步驟31:針對(duì)非交疊文本行區(qū)域特征分?jǐn)?shù)圖設(shè)定第一閾值,針對(duì)交疊文本行區(qū)域特征分?jǐn)?shù)圖設(shè)定第二閾值,針對(duì)文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖設(shè)定第三閾值;
步驟32:根據(jù)第一閾值對(duì)非交疊文本行區(qū)域特征分?jǐn)?shù)圖進(jìn)行二值化處理,根據(jù)第二閾值對(duì)交疊文本行區(qū)域特征分?jǐn)?shù)圖進(jìn)行二值化處理,根據(jù)第三閾值對(duì)文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖進(jìn)行二值化處理,在非交疊文本行區(qū)域特征分?jǐn)?shù)圖中得到非交疊文本行區(qū)域像素點(diǎn)和背景像素點(diǎn),在交疊文本行區(qū)域特征分?jǐn)?shù)圖中得到交疊文本行區(qū)域像素點(diǎn)和背景像素點(diǎn),在文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖中得到鏈接狀態(tài)信息和非鏈接狀態(tài)信息;
步驟33:根據(jù)非交疊文本行區(qū)域像素點(diǎn)結(jié)合鏈接狀態(tài)信息,得到非交疊文本行區(qū)域的像素點(diǎn)區(qū)域,根據(jù)交疊文本行區(qū)域像素點(diǎn)結(jié)合鏈接狀態(tài)信息,得到交疊文本行區(qū)域的像素點(diǎn)區(qū)域,用連通域表示像素點(diǎn)區(qū)域的輪廓;
其中,所述步驟4具體包括:
步驟41:合并非交疊文本行區(qū)域的像素點(diǎn)區(qū)域和交疊文本行區(qū)域的像素點(diǎn)區(qū)域;
步驟42:判斷相鄰像素點(diǎn)之間的相鄰信息,并結(jié)合文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖,當(dāng)兩個(gè)像素點(diǎn)相鄰,并且兩個(gè)像素點(diǎn)的鏈接狀態(tài)信息為正時(shí),將兩個(gè)像素點(diǎn)合并到一個(gè)連通域內(nèi);其中,兩個(gè)像素點(diǎn)相鄰是指:兩個(gè)像素點(diǎn)在X方向像素坐標(biāo)軸或Y方向像素坐標(biāo)軸相差1-3個(gè)像素;
步驟43:采用基于可變距離閾值合并的策略,以端到端的檢測(cè)精度為依據(jù),采用動(dòng)態(tài)搜索距離閾值的方式,在可變距離閾值測(cè)試集上獲取最佳距離閾值,若兩個(gè)連通域之間的距離在該最佳距離閾值范圍內(nèi),則進(jìn)行合并操作。
2.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的交疊文本行定位分割方法,其特征在于,所述步驟1具體包括:對(duì)輸入的原始圖像進(jìn)行邊界補(bǔ)齊N個(gè)單位,之后進(jìn)行1/M的下采樣,得到預(yù)處理后的原始圖像,其中,M和N均為≥1的整數(shù),且M是N的整數(shù)倍。
3.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的交疊文本行定位分割方法,其特征在于,所述步驟2具體包括:
步驟21:針對(duì)訓(xùn)練樣本集合中每一張樣本圖像,通過(guò)四邊形表示文本行區(qū)域的輪廓來(lái)進(jìn)行標(biāo)注,生成帶有標(biāo)注的標(biāo)簽文件;
步驟22:將標(biāo)簽文件和樣本圖像送入實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其中,為了完成交疊文本行的監(jiān)督和學(xué)習(xí),實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò)根據(jù)標(biāo)簽文件中文本行區(qū)域的輪廓,自動(dòng)計(jì)算出交疊文本行區(qū)域的輪廓,以此作為交疊文本行區(qū)域的監(jiān)督和學(xué)習(xí)目標(biāo),并結(jié)合非交疊文本行區(qū)域的輪廓,完成訓(xùn)練過(guò)程,形成初步訓(xùn)練模型;
步驟23:針對(duì)初步訓(xùn)練模型,通過(guò)測(cè)試樣本集合進(jìn)行測(cè)試,評(píng)估非交疊文本行區(qū)域和交疊文本行區(qū)域的檢測(cè)分割精度,如達(dá)到精度要求,則訓(xùn)練過(guò)程終止,以初步訓(xùn)練模型作為已訓(xùn)練的實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò);如未達(dá)到精度要求,則增加訓(xùn)練樣本量,并對(duì)實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及訓(xùn)練參數(shù)進(jìn)行調(diào)整,并重復(fù)訓(xùn)練過(guò)程,直到得到達(dá)到精度要求的已訓(xùn)練的實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò);
步驟24:將預(yù)處理后的原始圖像輸入到已訓(xùn)練的實(shí)例分割全卷積神經(jīng)網(wǎng)絡(luò)中,輸出非交疊文本行區(qū)域特征分?jǐn)?shù)圖、交疊文本行區(qū)域特征分?jǐn)?shù)圖以及文本行區(qū)域像素之間鏈接信息特征分?jǐn)?shù)圖。
4.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的交疊文本行定位分割方法,其特征在于,第一閾值、第二閾值以及第三閾值的取值范圍均為[0,1]。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京易道博識(shí)科技有限公司,未經(jīng)北京易道博識(shí)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911053860.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





