[發明專利]基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法及應用在審
| 申請號: | 202211078512.0 | 申請日: | 2022-09-05 |
| 公開(公告)號: | CN115393879A | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 汪增福;姜飛 | 申請(專利權)人: | 中國科學院合肥物質科學研究院 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06N3/04;G06N3/08;G06V10/764;G06V10/774;G06V10/82;G06V30/413 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230031 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 傅里葉 級數 編碼 任意 形狀 文本 檢測 矯正 方法 應用 | ||
1.一種基于傅里葉級數編碼的任意形狀文本的檢測與矯正方法,其特征在于,包括以下步驟:
步驟1:構建訓練數據集,包括數據的獲取以及預處理:
步驟1.1:獲取文本圖像數據集記為I={I1,I2,...,Ip,...,Iu},Ip表示文本圖像數據集I中第p張文本圖像,u表示文本圖像數據集I中文本圖像的總數目;
步驟1.2:提取第p張文本圖像Ip中的文本區域,得到相對應的文本區域邊界點集合記為并形成文本區域邊界,其中,表示第p張文本圖像Ip中文本區域的第q個邊界點坐標,l表示文本區域的邊界點數目;
步驟1.3:獲取第p張文本圖像Ip中文本區域trp的文本中心線區域tcrgtp、文本頭部區域thrgtp、文本尾部區域ttrgtp、文本上下邊界區域tbrgtp;從而得到文本圖像數據集I的文本中心線區域集合記為tcrgt={tcrgt1,tcrgt2,...,tcrgtp,...tcrgtu};文本頭部區域集合記為thrgt={thrgt1,thrgt2,...,thrgtp,...,thrgtu},文本尾部區域集合記為ttrgt={ttrgt1,ttrgt2,...,ttrgtp,...ttrgtu},文本上下邊界區域集合記為tbr={tbrgt1,tbrgt2,...,tbrgtp,...,tbrgtu};
步驟1.4:在極坐標系下對第p張文本圖像Ip進行建模,得到相對應的文本圖像從而得到極坐標系下的文本圖像集合為
步驟1.5:獲取第p張文本圖像內文本區域的中心點(xp,yp),且以文本區域的中心點(xp,yp)為發射點,按照相同的角度間隔發射k條射線,并與所述文本區域邊界相交,得到文本區域中心點到文本區域邊界點之間的距離集合記為其中,表示第p張文本圖像內文本區域的中心點(xp,yp)到文本區域的第s個邊界點間的距離,從而得到文本圖像集合的距離集合記為reggt={reggt1,reggt2,...,reggtp,...,reggtu};
步驟2:構建任意形狀文本檢測網絡,包括:特征提取器、編碼器和解碼器;并將所述的文本圖像集合輸入所述任意形狀文本檢測網絡中;
步驟2.1所述特征提取器由ResNet50網絡,反卷積網絡和特征金字塔網絡組成;
所述第p張文本圖像依次經過RestNet50網絡、反卷積網絡和特征金字塔網絡后輸出第p個特征圖resultp;從而由特征提取網絡輸出文本圖像集合的特征圖集合result={result1,result2,...,resultp,...,resultu};
步驟2.2所述編碼器,包括:分類編碼器和回歸編碼器;其中,所述分類編碼器由r個卷積核為e×e的二維卷積層和r個ReLU非線性激活層交替連接而成;所述回歸編碼器由v個卷積核為c×c的二維卷積層和v個ReLU非線性激活層交替連接而成;
所述特征圖resultp經過分類編碼器的處理后,輸出第p個分類特征圖clsp;
所述特征圖resultp經過回歸編碼器的處理后,輸出第p個回歸特征圖regp;
步驟2.3所述解碼器,包括:分類解碼器和回歸解碼器;其中,所述分類解碼器依次由1個卷積核為f×f的二維卷積層,1個softmax函數組成;所述回歸解碼器依次由1個卷積核為w×w的二維卷積層,1個反傅里葉變換函數組成;
所述第p個分類特征圖clsp經過分類解碼器的處理后,輸出預測的第p個文本中心線區域tcrpredp,預測的第p個文本頭部區域thrpredp、預測的第p個文本尾部區域ttrpredp、預測的第p個文本上下邊界區域tbrpredp;從而由分類解碼器輸出文本圖像集合預測的文本中心線區域集合tcrpred={tcrpred1,tcrpred2,...,tcrpredp,...,tcrpredu},預測的文本頭部區域集合thrpred={thrpred1,thrpred2,...,thrpredp,...,thrpredu},預測的文本尾部區域集合ttrpred={ttrpred1,ttrpred2,...,ttrpredp,...,ttrpredu},預測的文本上下邊界區域集合tbrpred={tbrpred1,tbrpred2,...,tbrpredp,...,tbrpredu};
所述第p個回歸特征圖regp經過回歸解碼器的處理后,輸出預測的第p個距離集合其中,表示由任意形狀文本檢測網絡預測的第p張文本圖像內文本區域中心點(xp,yp)到文本區域的第g個邊界點的距離;從而由回歸解碼器輸出文本圖像集合預測的距離集合記為:
regpred={regpred1,regpred2,...,regpredp,...,regpredu};
步驟2.4使用式(1)建立反向傳播的損失函數L:
L=Ltcr+Lthr+Lttr+Ltbr+Lreg (1)
式(1)中,Ltcr,Lthr,Lttr,Ltbr均為交叉熵損失,并分別由式(2),式(3),式(4),式(5)得到;
式(1)中,Lreg是smoothl1損失,并由式(6)得到;
步驟2.5:基于所述文本圖像集合利用梯度下降法對任意形狀文本檢測網絡進行訓練,并計算損失函數L,當訓練迭代次數達到設定的次數或者損失誤差小于設定的閾值時,訓練停止,從而得到最優的任意形狀文本檢測網絡;
步驟3:檢測結果后處理,包括:雙線性插值矯正處理;
步驟3.1利用最優的任意形狀文本檢測網絡對文本圖像數據集合進行處理并輸出相應的文本區域邊界集合記為txt={txt1,txt2,...,txtp,...,txtu},其中,txtp表示第p張文本圖像中的文本區域邊界;
步驟3.2利用雙線性插值對所述文本區域邊界集合txt進行矯正處理后,得到矯正后的文本集合記為txt′={txt1′,txt′2,...,txt′p,...,txt′u};其中,txt′p表示p張文本圖像中的矯正后的文本區域邊界。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院合肥物質科學研究院,未經中國科學院合肥物質科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211078512.0/1.html,轉載請聲明來源鉆瓜專利網。





