[發明專利]一種基于多神經網絡模型融合處理的圖像文字語義分割方法有效
| 申請號: | 201910403196.1 | 申請日: | 2019-05-15 |
| 公開(公告)號: | CN110390251B | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 劉晉;張鑫;李云輝 | 申請(專利權)人: | 上海海事大學 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/146;G06V30/148;G06V10/82;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 上海互順專利代理事務所(普通合伙) 31332 | 代理人: | 成秋麗 |
| 地址: | 201306 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 模型 融合 處理 圖像 文字 語義 分割 方法 | ||
1.一種基于多神經網絡模型融合處理的圖像文字語義分割方法,其特征在于,包括以下步驟:
步驟一:接收待語義分割的文字圖像;
步驟二:對待語義分割的文字圖像進行灰度化、歸一化等預處理;
步驟三:對預處理的圖像分別輸入訓練后的多個/多種語義分割模型分別進行預測;
步驟四:利用訓練后的卷積神經網絡CNN對得到的多個單一模型預測結果對文字區域與非文字區域的評估和處理;
步驟五:對評估和處理后的結果采用多模型融合的方法,生成最后的語義分割的結果。
2.根據權利要求1所述的基于多神經網絡模型融合處理的圖像文字語義分割方法,其特征在于:所述步驟三所涉及的多個/多種語義分割模型的訓練方法,包括以下步驟:
步驟21:對語義分割的樣本圖像進行灰度化、歸一化預處理并進行多尺度特征提取;
步驟22:針對多模型通過語義標注分別生成用于語義分割的標簽,得到用于深度學習的數據集;
步驟23:基于語義分割的神經網絡技術,構建多尺度全卷積神經網絡模型MSFCN、U型全卷積神經網絡模型U-net、基于區域的全卷積神經網絡模型R-FCN、更快的基于區域卷積神經網絡模型FasterR-CNN;
步驟24:分別訓練并保存上述多個深度神經網絡模型。
3.根據權利要求2所述的基于多神經網絡模型融合處理的圖像文字語義分割方法,其特征在于:所述步驟21中對語義分割樣本圖像進行預處理與多尺度特征提取方法,包括以下步驟:
步驟31:對語義分割的樣本圖像灰度化處理,每個點的像素用0到255的數值表示;
步驟32:對經過灰度化的圖像歸一化處理,將圖像的長和寬縮放到預設圖像的尺寸大小;
步驟33:對歸一化和放縮的圖像采用基于多尺度變換的多尺度特征提取算法生成多尺度特征樣本圖像。
4.根據權利要求2所述的基于多神經網絡模型融合處理的圖像文字語義分割方法,其特征在于:所述步驟22中得到用于深度學習數據集的方法,其特征在于包括以下步驟:
步驟41:根據語義分割的樣本圖像通過人工或半人工進行語義標記,生成語義標記圖像或者是語義標記框信息;
步驟42:根據語義標記的文字區域和非文字區域剪切生成多個矩陣文字區域和非文字區域的圖像;
步驟43:通過數據增強的方法,例如平移、旋轉、鏡像、反射變換等,對上述數據集進行擴展,并處理成適合于多個/多種語義分割模型的訓練數據集格式。
5.根據權利要求1所述的基于多神經網絡模型融合處理的圖像文字語義分割方法,其特征在于:采用訓練后的多個/多種語義分割模型分別進行預測,其特征在于,包括多尺度全卷積神經網絡模型MSFCN、U型全卷積神經網絡模型U-net、基于區域的全卷積神經網絡模型R-FCN、更快的基于區域卷積神經網絡模型Faster R-CNN,但不限于所提到的網絡結構,還包括:
基于基本的多層的單輸入單輸出全卷積神經網絡FCN和其改進的多種變體結構,例如其中包括單輸入多輸出,多輸入單輸出,多輸入多輸出的用于語義分割的全卷積神經網絡結構等;
基于全局處理與局部處理的用于語義分割的神經網絡結構,例如基于區域卷積神經網絡模型R-CNN的各種變體結構等。
6.根據權利要求1所述的基于多神經網絡模型融合處理的圖像文字語義分割方法,其特征在于:所述步驟四中用于對文字區域與非文字區域評估的方法,其特征在于包括使用卷積神經網絡模型CNN。
7.根據權利要求1所述的基于多神經網絡模型融合處理的圖像文字語義分割方法,其特征在于:所述步驟三中多個/多種語義分割模型分別進行預測得到預測結果圖的過程為:將經過處理的待語義分割的樣本圖像分別應用于多尺度全卷積神經網絡模型MSFCN、U型全卷積神經網絡模型U-net、基于區域的全卷積神經網絡模型R-FCN、更快的基于區域卷積神經網絡模型Faster R-CNN得到每個單一模型的預測結果圖;預測結果圖采用0到255像素值標記是否是文字區域的可能性,例如黑色像素值為0,表示是非文字區域的可能性最大,白色像素值為255,表示是文字區域的可能性最大。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海海事大學,未經上海海事大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910403196.1/1.html,轉載請聲明來源鉆瓜專利網。





