[發明專利]基于無監督學習深度學習網絡的中文檢測方法及系統有效
| 申請號: | 201510819927.2 | 申請日: | 2015-11-23 |
| 公開(公告)號: | CN105469047B | 公開(公告)日: | 2019-02-22 |
| 發明(設計)人: | 周異;陳凱;周曲;任逍航 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/62 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 徐紅銀;郭國中 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 學習 深度 網絡 中文 檢測 方法 系統 | ||
1.一種基于無監督學習深度學習網絡的中文檢測方法,其特征在于包括以下步驟:
第一步,訓練深度卷積神經網絡:
構建無監督學習算法:以卷積運算和離散編碼算法為基礎,針對深度學習網絡和中文字的特性,構建深度卷積神經網絡的無監督學習算法;
建立中文字數據集:中文字數據集包括常用字以及常用字體;
使用所述無監督學習算法和所述中文字數據集訓練深度卷積神經網絡;
第二步,使用多尺度滑動窗算法提取自然圖像中的候選文字區域,并由訓練得到的所述深度卷積神經網絡進行分類,得到文字區域;
第三步,分析文字區域之間的相關性,將相關文字區域聚合成文本行,并用矩形框對文本行加以標定;
所述第一步,具體過程如下:
(1)根據卷積運算和離散編碼算法構建目標函數,優化目標為:特征h,字典D和網絡參數p;
(2)固定字典D,使用FISTA法得到最優特征h‘;
(3)固定最優特征h‘,單次使用隨機梯度下降法訓練字典D;
(4)固定最優特征h‘,多次使用隨機梯度下降法訓練網絡參數p,直至訓練誤差小于預設值θ;
(5)使用最新網絡參數p重新計算特征h;
(6)重復上述(2)-(5)步驟直至達到學習目標;
第三步中,利用第二步得到的文字區域,執行基于區域相關性的文本行聚合算法,具體相關性特征和聚合規則如下:
(1)兩個文字區域的高度比值在0.5和2之間;
(2)兩個文字區域外接矩形的中心點y坐標差值不大于兩個文字區域之間最高的高度值的1/2;
(3)兩個文字區域的外接矩形的中心點x坐標差值不大于兩個文字區域之間最寬的寬度值的2倍;
(4)單個文本行至少有三個或以上的文字區域;
相關性為:兩個文字區域的高度、兩個文字區域外接矩形的中心點y坐標差、兩個文字區域的外接矩形的中心點x坐標差;
聚合規則為:高度比值該在0.5和2之間、中心點y坐標差值不大于兩個文字區域之間最高的高度值的1/2、中心點x坐標差值不大于兩個文字區域之間最寬的寬度值的2倍。
2.根據權利要求1所述的基于無監督學習深度學習網絡的中文檢測方法,其特征在于第一步中,建立的中文字數據集特征如下:
所用文字為3500個常用字;
所用字體為15種有代表性的字體;
文字圖像類型為黑底白字和白底黑字兩種;
文字圖像大小為32×32。
3.根據權利要求1所述的基于無監督學習深度學習網絡的中文檢測方法,其特征在于第二步中,所述多尺度滑動窗算法,其提取參數如下:
最大尺度為1/4圖像大小,最小尺度為20像素;
重疊系數為0.5滑動提取;
提取出的圖像塊長寬比為1:1,并統一縮放為32×32的圖像塊。
4.一種用于實現權利要求1-3任一項所述方法的基于無監督學習深度學習網絡的中文檢測系統,其特征在于包括:
深度卷積神經網絡模塊,該模塊包括構建無監督學習算法子模塊和建立中文字數據集子模塊,其中:
構建無監督學習算法子模塊,以卷積運算和離散編碼算法為基礎,針對深度學習網絡和中文字的特性,構建深度卷積神經網絡的無監督學習算法;
建立中文字數據集子模塊,用于建立中文字數據集,所述中文字數據集包括常用字以及常用字體;
構建的所述無監督學習算法和所述中文字數據集用于訓練深度卷積神經網絡;
文字區域提取模塊,使用多尺度滑動窗算法提取自然圖像中的候選文字區域,并由訓練得到的所述深度卷積神經網絡進行分類,得到文字區域;
文字區域聚合模塊,分析文字區域之間的相關性,將相關文字區域聚合成文本行,并用矩形框對文本行加以標定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510819927.2/1.html,轉載請聲明來源鉆瓜專利網。





