[發明專利]一種基于邊界點檢測的場景文本端到端識別方法有效
| 申請號: | 201911038568.1 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110837835B | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 劉文予;白翔;許永超;王豪;盧普;張輝;楊明錕;何夢超;王永攀 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06V10/44;G06V30/18;G06V10/774;G06V30/19;G06V10/764 |
| 代理公司: | 深圳市六加知識產權代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 邊界 檢測 場景 文本 端到端 識別 方法 | ||
1.一種基于邊界點檢測的場景文本端到端識別方法,其特征在于,所述方法包括下述步驟:
(1)訓練基于邊界點檢測的場景文本端到端識別網絡模型,包括如下子步驟:
(1.1)對原始數據集中所有圖片的任意形狀文本進行單詞級別的標注,標簽為單詞級別的文本包圍盒的多邊形順時針頂點坐標和文本的單詞字符序列,得到帶標注的標準訓練數據集;
(1.2)定義基于邊界點檢測的場景文本端到端識別網絡模型,根據(1.1)帶標注的標準訓練數據集,計算訓練標簽,并設計損失函數,利用反向傳導方法訓練該基于邊界點檢測的場景文本端到端識別網絡,得到基于邊界點檢測的場景文本端到端識別網絡模型;包括:
(1.2.1)構建基于邊界點檢測的場景文本端到端識別網絡模型,所述識別網絡模型由特征金字塔結構網絡、區域提取網絡、多方向矩形檢測網絡、邊界點檢測網絡、基于注意力機制的序列識別網絡組成;
(1.2.2)根據帶標注的標準訓練數據集和特征圖在原圖上產生水平初始包圍盒、多方向矩形包圍盒以及文字實例上下邊界點,分別為所述區域提取網絡、多方向矩形檢測網絡、邊界點檢測網絡和基于注意力機制的序列識別網絡提供訓練標簽;具體為:
對于帶標注的標準訓練數據集Itr,輸入圖片真實標簽包含表示文本區域的多邊形P={p1,p2…pm}和表示文本內容的字符串S={s1,s2…sm},對于輸入圖片Itri,其中Pi是圖片Itri中文本區域的多邊形包圍盒,pij=(xij,yij)是多邊形Pi第j個頂點的坐標,m表示多邊形文本標注框的數目,si是多邊形Pi內的文字內容;
對于所給的標準訓練數據集Itr,首先將數據集標簽中的多邊形P={p1,p2…pm}轉化為多邊形文本標注框的最小水平矩形包圍盒,以矩形的中心點(x,y)以及高度h和寬度w來表示該矩形包圍盒Gd(x,y,h,w);對于區域提取網絡,根據標注數據集的標注包圍盒Gd(x,y,h,w),以特征金字塔輸出的待提取特征圖中的每張特征圖上的每個像素對應到原圖,根據區域提取網絡預測的候選文本區域產生許多初始包圍盒,計算初始包圍盒Q0相對于標注數據集的標注包圍盒Gd的位置偏移量和類別,當所有的標注包圍盒Gd與初始包圍盒Q0的Jaccard系數均小于0.5,那么,初始包圍盒Q0被標記為負類非文本,類別標簽Prpn取值為0;否則,即至少存在一個標注包圍盒Gd與Q0的Jaccard系數不小于0.5,Q0被標記為正類文本,類別標簽Prpn取值為1,并相對于Jaccard系數最大的標注盒來計算位置偏移量,公式如下:
x=x0+w0Δx
y=y0+h0Δy
w=w0exp(Δw)
h=h0exp(Δh)
其中,x0、y0分別為初始包圍盒Q0的中心點的橫坐標、縱坐標,w0、h0分別為初始包圍盒Q0的寬度和高度,Δx、Δy分別為Q0的中心點相對于Gd的中心點的橫、縱坐標位置偏移量,exp為指數運算,即可得區域提取網絡的訓練標簽為:
gtrpn=(Δxrpn,Δyrpn,Δhrpn,Δwrpn,Prpn)
對于多方向矩形檢測網絡,首先將數據集標簽中的多邊形P={p1,p2…pm}轉換為多邊形文本標注框的最小多方向矩形包圍盒,以矩形的中心點(x,y)、高度h、寬度w以及旋轉角θ來表示該多方向矩形包圍盒Grotate(x,y,h,w,θ);經過區域提取網絡修正后的候選文本區域為Grpn(xrpn,yrpn,wrpn,hrpn),預測的位置偏移量計算公式如下:
x=xrpn+wrpnΔxor
y=yrpn+hrpnΔyor
w=wrpnexp(Δwor)
h=hrpnexp(Δhor)
通過以上公式可得多方向矩形檢測網絡的訓練標簽為:
gtor=(Δxor,Δyor,Δhor,Δwor,θ)
對于邊界點檢測網絡,邊界點檢測網絡的訓練標簽計算過程如下:
a、設置默認的邊界點:
根據已經檢測到的多方向矩形包圍盒Grotate(x,y,h,w,θ),將矩形按照順時針旋轉θ度數,得到水平包圍盒Ghorizon(x,y,h,w),在水平包圍盒的每條長邊上等間隔采樣K個邊界點,得到上下兩個默認的邊界點序列:Pdu={p1,p2…pK}和Pdd={p1,p2…pK},有Pd=Pdu∪Pdd;
b、生成目標邊界點:
首先將多邊形P按照長邊分為兩條邊,P1={p1,p2…pl}和P2={pl+1,…,pm},p代表多邊形中的一個點;
根據P1和P2生成上下邊界的邊界點:Ptu={p1,p2…pK}和Ptd={p1,p2…pK},有Pt=Ptu∪Ptd;
c、根據下方公式計算訓練標簽gtbp={(Δxi,Δyi),|i∈[0,2K-1)}:
其中,和分別表示第i個目標邊界點的坐標和第i個默認邊界點的坐標;
對于基于注意力機制的序列識別網絡,輸入圖像中每一個文本實例都標注相應的長度為n的字符串si={(c0,c1,…,cn-1),|ci∈{0,1,…,9,a,b,…,z,A,B,…,Z}}以描述文本內容,識別網絡的訓練標簽為gtrecog=(onehot(c0),onehot(c1),…,onehot(cn-1)),其中onehot(ci)表示將字符c1轉化為one-hot編碼形式;
生成最終的訓練標簽為:gt={gtrpn,gtor,gtbp,gtrecog};
(1.2.3)以標準訓練數據集Itr作為識別網絡模型的輸入,利用特征金字塔網絡模塊提取特征;
(1.2.4)將特征金字塔網絡提取的特征輸入區域提取網絡,經過錨點分配,利用感興趣區域對齊方法調整特征圖,生成候選文本框;將區域提取網絡挑選出的正確文本區域通過感興趣區域對齊操作生成固定尺度為7×7的候選文本區域,多方向矩形預測網絡在固定尺度的候選文本區域內預測文本實例的多方向包圍盒;
(1.2.5)多方向矩形預測網絡預測出每個文本實例的多方向包圍盒后,通過旋轉的感興趣區域對齊操作后生成固定尺度為7×7的候選文本區域,網絡最終學習預測文本實例的邊界點;
(1.2.6)邊界點預測網絡預測出每個文本實例的邊界點后,通過薄板樣條插值算法生成采樣網格,將任意形狀的文本特征矯正為水平的、固定尺度為16×64的特征圖,將該特征圖輸入基于注意力機制的序列識別網絡進行文本內容的預測,根據所有的預測概率分布Precog來預測字符序列Sq;
(1.2.7)以訓練標簽gt為網絡期望輸出,以預測標簽為網絡預測輸出,針對構建的網絡模型,設計期望輸出和預測輸出之間的目標損失函數;
(2)利用上述訓練好的模型對待識別文本圖片進行文字識別,包括如下子步驟:
(2.1)將待檢測識別場景文本圖片提取特征依次輸入區域提取網絡和多方向矩形檢測網絡中生成多方向的候選文本區域,并對其進行非最大值抑制操作進行過濾,得到更準確的多方向候選文本區域;根據預測出的多方向文本包圍盒,將多方向文本特征旋轉為水平特征輸入給邊界點檢測網絡;結合預先設置的14個默認邊界點,利用(1.2.2)中的公式計算出邊界點在水平框中的坐標,然后利用(2.1)中預測的多方向矩形的旋轉角,將預測的邊界點坐標逆時針旋轉θ得到邊界點在原圖中的位置;
(2.2)根據(2.1)中預測的文本實例的邊界點,利用薄板樣條插值算法生成采樣網格,將任意形狀的文本特征矯正為水平形狀,將該特征圖輸入給序列識別網絡得到概率分布序列,根據概率分布,每步獲取最大概率的類別為當前預測字符,最終獲得預測的字符序列Sq。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911038568.1/1.html,轉載請聲明來源鉆瓜專利網。





