[發明專利]一種婆羅米系文字的識別方法及系統在審
| 申請號: | 202210262353.3 | 申請日: | 2022-03-16 |
| 公開(公告)號: | CN114842487A | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 上海鶉火信息技術有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/14;G06V30/19;G06V10/80;G06V10/82;G06V10/764;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天昊專利代理事務所(特殊普通合伙) 33283 | 代理人: | 范凌杰 |
| 地址: | 201400 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 婆羅米系 文字 識別 方法 系統 | ||
1.一種婆羅米系文字的識別方法,用于輸入圖像的文本識別,其特征在于,包括檢測步驟、識別文本步驟,
其中,檢測步驟包括:
1.輸入圖像,圖像進入檢測模塊;
2.檢測模塊對圖像中的文字區域進行描述,描述形式為多邊形頂點坐標;
3.將描述完畢的文字區域圖提取出來經過變換得到規則形狀的圖像;
識別文本步驟,包括:
4.將多邊形圖像傳入識別模塊得到文本數據;
其中,檢測模塊內設有用于提取圖像特征的第一主干神經網絡,識別模塊內設有第二主干神經網絡。
2.根據權利要求1所述的一種婆羅米系文字的識別方法,其特征在于,步驟2包括:
2.1采用第一主干神經網絡,提取圖像特征;
2.2基于第一主干神經網絡提取的圖像特征,再采用檢測神經網絡,找出文字區域的二值化圖像;
2.3針對文字區域的二值化圖像進行處理,提取出多邊形頂點坐標。
3.根據權利要求1所述的一種婆羅米系文字的識別方法,其特征在于,第一主干神經網絡為FPN神經網絡,檢測神經網絡為可選擇的,包括DB神經網絡,EAST神經網絡,SAST神經網絡。
4.根據權利要求1所述的一種婆羅米系文字的識別方法,其特征在于,步驟3包括:
3.1根據步驟2得到的多邊形頂點坐標,使用Sklansky凸包算法提取多邊形頂點集合的凸包;
3.2使用鞋帶算法計算原多邊形的面積和凸包的面積;
3.3根據原多邊形的面積比上凸包的面積得到R;
3.4根據R值的大小判斷文字區域是矩形文字還是彎曲文字,并施行不同的多邊形處理算法;
3.5根據判斷結果,實施不同的操作;
在步驟3,4中,通過將R與預設好的文字比較值C進行比較,來判斷是矩形文字或是彎曲文字當R>C,判定為矩形文字區域,當R<C,判定為彎曲文字區域;
在步驟3.5中,實施不同的操作為進行不同的二維變換,二維變換包括但不限于仿射變換、剛體變換、投影變換、tps變換。
5.根據權利要求2所述的一種婆羅米系文字的識別方法,其特征在于,當第一主干神經網絡選用FPN神經網絡時,步驟2.1包括:
2.1.1圖像縮放;
2.1.2提取圖像特征;
2.1.2提取圖像特征具體為:首先一個自底向上的子網絡計算出N個尺寸的特征圖(N≥2),然后一個自頂向下的子網絡以及水平連接逐步恢復特征圖的尺寸,并使用concat操作把所有尺寸的特征融在一起,得到特征圖。
6.根據權利要求2所述的一種婆羅米系文字的識別方法,其特征在于,當檢測神經網絡為DB神經網絡,步驟2.2為:
2.2基于FPN網絡提取的圖像特征,DB神經網絡會在步驟2.1.2提取的特征圖的每一個像素位置計算一個[0,1]之間的值,并與預先設定好的特征比較值B進行比較,值大于B的像素就判定為文字區域,值小于B的像素判定為非文字區域,由此得到一個二值化圖像;
步驟2.3為:
2.3針對文字區域的二值化圖像做連通分量分析,基于連通區域提取輪廓,最終找出文字區域的多邊形頂點坐標。
7.根據權利要求2所述的一種婆羅米系文字的識別方法,其特征在于,第二主干神經網絡為可選擇的,包括CRNN卷積循環神經網絡結構,或是RARE神經網絡,或是SAR神經網絡;
當第二主干神經網絡選用CRNN時,識別文本步驟包括:
4.1采用第二主干神經網絡,將檢測模塊得到的多邊形圖像壓縮為高維特征序列;
4.2對于第二主干神經網絡輸出的高維特征序列進行解碼,得到最終的文本信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海鶉火信息技術有限公司,未經上海鶉火信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210262353.3/1.html,轉載請聲明來源鉆瓜專利網。





