[發明專利]基于深度學習的弱監督電力圖紙OCR識別方法在審
| 申請號: | 202010714478.6 | 申請日: | 2020-07-21 |
| 公開(公告)號: | CN111860348A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 王杉;李昊;石瑋;朱玉錦;高連學;王黎;孫萬珺;苗純源;甘甜 | 申請(專利權)人: | 國網山東省電力公司青島供電公司;國家電網有限公司;山東大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 濟南竹森知識產權代理事務所(普通合伙) 37270 | 代理人: | 呂利敏 |
| 地址: | 266000 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 監督 電力 圖紙 ocr 識別 方法 | ||
1.一種基于深度學習的弱監督電力圖紙OCR識別方法,其特征在于,包括:
利用預先訓練好的文本檢測模型對待識別圖像進行檢測,通過檢測每個文字字符的區域與文字字符的相互關系,預測出整個單詞級別的文本區域框,其中所述文本檢測模型對每個單詞級別的標注區域使用弱監督訓練學習字符特性;
對預測出的文本區域框進行文字識別:對于豎直文本采用字符切割得到單個字符文本,對于水平文本則直接使用文本行,之后再通過CNN+BiLSTM+CTC模型進行識別;
對得到的識別結果進行后處理:通過先驗知識對結果進行判定和修改來提高準確率。
2.根據權利要求1所述的方法,其特征在于,所述利用預先訓練好的文本檢測模型對待識別圖像進行檢測,通過檢測每個文字字符的區域與文字字符的相互關系,預測出整個單詞級別的文本區域框之前,包括:
對電力系統圖紙進行切割,得到預設尺寸范圍內的待識別圖像。
3.根據權利要求1所述的方法,其特征在于,所述文本檢測模型的訓練包括:
數據集使用兩種:字符級標簽的強數據集和單詞級標簽的弱數據集;
標簽包括:字符級的高斯熱圖和字符間連接的高斯熱圖;
對于單詞級標簽的弱數據集生成偽標簽:首先,將單詞級別的字符區域從原圖中裁剪出來;之后,使用強監督訓練出的預訓練模型預測區域分數Region score,再通過分水嶺算法分割字符區域得到字符框;最后,將字符框的坐標轉換回原坐標;
文本檢測模型訓練過程分為兩步:首先,在SynthText數據集上進行訓練,迭代50K次;之后,在電力系統圖紙數據集上進行微調fine-tuning,此時弱標簽數據和強標簽數據按照1:5的比例進行訓練,即得到所需的文本檢測模型。
4.根據權利要求3所述的方法,其特征在于,所述字符級標簽的強數據集為SynthText數據集,所述單詞級標簽的弱數據集為電力系統圖紙數據集。
5.根據權利要求3所述的方法,其特征在于,對于字符級標簽的強數據集來說,字符級的高斯熱圖直接由字符框生成高斯熱圖來獲得,字符間連接的高斯熱圖是由親和力框Affinity Box生成高斯熱圖來獲得,其中,Affinity Box是通過連接字符框的對角線,再對連接對角線后產生的三角形進行組合得到候選的Affinity Box,之后選出其中面積最大且為凸四邊形的即為Affinity Box。
6.根據權利要求1所述的方法,其特征在于,所述利用預先訓練好的文本檢測模型對待識別圖像進行檢測,通過檢測每個文字字符的區域與文字字符的相互關系,預測出整個單詞級別的文本區域框,包括:
對待識別圖像通過視覺幾何群VGG-16構架進行特征提取,之后通過特征金字塔網絡FPN進行特征融合,其中在解碼階段跳過連接,就像U-net聚合底層特征一樣采用自頂向下的特征聚合方式,淺層和深層的卷積特征相結合作為輸出,有效保留淺層的結構特征和深層的語義特征;
再通過使用3*3*32、3*3*32、3*3*16和1*1*16四次卷積,最終的1*1卷積層使用兩個卷積核輸出兩個分支結果,輸出分為兩個通道區域分數region score和親和力分數affinityscore,分別為單字符中心區域的概率和相鄰字符區域中心的概率,得到原圖大小1/2的預測圖,即可預測出每個文字字符的區域與文字字符的相互關系的置信度;
對預測的region score和affinity score分別記為Sr(p)和Sa(p),τr和τa分別表示各自的閾值,創建與圖像相同大小的二進制圖M,并將其全部像素點初始化為0,若Sr(p)τr或Sa(p)τa,則對二進制圖M進行二值化操作,最終得到二值化圖像M,之后在M的基礎上使用連通區域標記法對圖像中不同連通區域中的像素設置唯一的標號,將所有相連的值為1的像素定為一個文本目標,最終將這些單獨預測的字符區域連接起來,在這些區域上使用最小包圍矩形框得到一個帶角度的矩形框檢測結果,即可獲得單詞級別的文本區域框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網山東省電力公司青島供電公司;國家電網有限公司;山東大學,未經國網山東省電力公司青島供電公司;國家電網有限公司;山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010714478.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據線搖擺電測機構
- 下一篇:基于二維碼的終端管理方法





