[發明專利]一種基于深度度量模型的文本檢測方法在審
| 申請號: | 201810568042.3 | 申請日: | 2018-06-05 |
| 公開(公告)號: | CN109002463A | 公開(公告)日: | 2018-12-14 |
| 發明(設計)人: | 趙永彬;剛毅凝;李巍;劉樹吉;陳碩;熊先亮;梁凱;周楊浩;楊育彬;郝躍冬;劉嘉華;康睿 | 申請(專利權)人: | 國網遼寧省電力有限公司信息通信分公司;南京大學;南京南瑞信息通信科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 110006 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 度量 候選區域 文本檢測 文本框 非字符區域 啟發式規則 幾何位置 檢測算法 字符級別 字符聚類 分類器 文本行 訓練集 分割 過濾 分類 學習 | ||
本發明公開了一種基于深度度量模型的文本檢測方法,包括:步驟1,使用MSER檢測算法,得到字符級別的候選區域。步驟2,使用分類器對候選區域進行過濾,去掉非字符區域。步驟3,根據幾何位置信息,將已得到的字符聚類成文本行。步驟4,根據啟發式規則,對文本行進行分割,分割成每一個具體的詞。步驟5,構造詞級別的訓練集。步驟6,訓練深度度量學習模型。步驟7,使用步驟6得到的深度度量模型,對文本框進行分類,得到最終的文本框區域。
技術領域
本發明屬于計算機視覺領域,尤其涉及一種基于深度度量模型的文本檢測方法。
背景技術
在機器學習模型中,損失函數通常可以表達為損失項和正則項。損失項用于描述模 型本身與訓練數據之間的擬合程度,正則項用來約束模型,使得模型能夠在擬合數據的同時又不至于太復雜,防止過擬合。統計學習中常用的損失函數包括0-1損失函數、平 方損失函數、絕對損失函數、對數損失函數等。深度學習中使用的主要是平方損失函數 和基于one-hot編碼的交叉熵損失函數。已有的損失函數都沒有考慮樣本對之間的關系, 只是對統計機器學習中損失函數的借用,沒有充分利用其它可用的判別信息。
發明內容
發明目的:文本檢測中文本行分類問題是一個典型的二分類問題。本發明將度量學 習的思想引入深度學習,最小化同類之間的距離,最大化不同類之間的距離,使得分類邊界更加明顯,提高模型的判別性。
針對當前對二分類問題考慮的不足,本發明提供了一直引入深度度量學習模型的處 理方法。
本發明具體包括如下步驟:
步驟1,使用MSER(Maximally Stable Extremal Regions,最穩定極值區域)對輸入 圖像進行檢測算法,得到字符級別的候選區域;
步驟2,構建字符級別的訓練數據集,本發明訓練數據集主要來源于場景文字數據集ICDAR2003,ICDAR 2011和ICDAR 2013,根據已標注好的字符區域,截取字符區 域內文字信息作為正類,對于步驟1得到的候選區域,選取與正類沒有重合的候選區域 作為負類,正類和負類組成字符級別的訓練數據集,作為輸入,訓練深度神經網絡, 使用此訓練好的深度神經網絡作為分類器(該分類器能夠判斷字符區域內是否含有字 符),對候選區域的候選字符進行分類,篩選過濾,去掉負類;
步驟3,選取每個候選區域的中心點,根據每個中心點的橫坐標,設置較小的閥值(一般為5個像素點),將在這閥值以內的候選字符區域按照水平方向,全部劃分到同 一個文本行區域;
步驟4,計算步驟3得到的文本行區域中每個字符之間的平均距離,對于大于平均距離兩倍的兩個字符進行分割,將其劃分為兩個不同的單詞,反之,將不到平均距離兩 倍的兩個字符歸屬于同一單詞,從而得到詞級別的候選區域;
步驟5,根據步驟4得到的詞級別的候選區域,每一個字符都屬于一個單詞,一個單詞是由至少一個字符構成,把構造出的所有單詞作為詞級別的數據集,根據詞級別的 文本標注信息(詞級別的文本標注信息即詞級別的數據集中所含字符的文本標注信息), 截取對應區域作為正類,將與正類沒有重合的區域作為負類;
步驟6,根據步驟5得到的正類和負類,將它們作為輸入,搭建深度度量模型并訓練,該訓練好的模型能夠用于詞級別的分類;
步驟7,根據步驟6得到的深度度量模型,對待測試圖像進行過濾,得到最終的文本區域。
步驟1中在運用MSER算法時,將MSER的閥值設置為最小的1,在檢測一張圖 像中的文本區域時,需要在H,L,S(H(hue,色相),L(lightness,亮度),S(saturation,飽和 度))和灰度四個通道均運用MSER算法。
步驟2中,數據集均由自己構造,在構造數據集時要考慮到構造的數據集與檢測的圖片之間的相似度。一般來講,相似度越高越好。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網遼寧省電力有限公司信息通信分公司;南京大學;南京南瑞信息通信科技有限公司,未經國網遼寧省電力有限公司信息通信分公司;南京大學;南京南瑞信息通信科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810568042.3/2.html,轉載請聲明來源鉆瓜專利網。





