[發(fā)明專利]一種基于深度度量模型的文本檢測方法在審
| 申請?zhí)枺?/td> | 201810568042.3 | 申請日: | 2018-06-05 |
| 公開(公告)號: | CN109002463A | 公開(公告)日: | 2018-12-14 |
| 發(fā)明(設計)人: | 趙永彬;剛毅凝;李巍;劉樹吉;陳碩;熊先亮;梁凱;周楊浩;楊育彬;郝躍冬;劉嘉華;康睿 | 申請(專利權)人: | 國網(wǎng)遼寧省電力有限公司信息通信分公司;南京大學;南京南瑞信息通信科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華;于瀚文 |
| 地址: | 110006 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 度量 候選區(qū)域 文本檢測 文本框 非字符區(qū)域 啟發(fā)式規(guī)則 幾何位置 檢測算法 字符級別 字符聚類 分類器 文本行 訓練集 分割 過濾 分類 學習 | ||
1.一種基于深度度量模型的文本檢測方法,其特征在于,包括如下步驟:
步驟1,使用MSER檢測算法,對輸入圖像進行檢測,得到字符級別的候選區(qū)域;
步驟2,構建字符級別的訓練數(shù)據(jù)集,根據(jù)已標注好的字符區(qū)域,截取字符區(qū)域內(nèi)文字信息作為正類,對于步驟1得到的候選區(qū)域,選取與正類沒有重合的候選區(qū)域作為負類,正類和負類組成字符級別的訓練數(shù)據(jù)集,作為輸入,訓練深度神經(jīng)網(wǎng)絡,使用此訓練好的深度神經(jīng)網(wǎng)絡作為分類器,對候選區(qū)域的候選字符進行分類,篩選過濾,去掉負類;
步驟3,選取每個候選區(qū)域的中心點,根據(jù)每個中心點的橫坐標,設置較小的閥值,將在這閥值以內(nèi)的候選字符區(qū)域按照水平方向,全部劃分到同一個文本行區(qū)域;
步驟4,計算步驟3得到的文本行區(qū)域中每個字符之間的平均距離,對于大于平均距離兩倍的兩個字符進行分割,將其劃分為兩個不同的單詞,反之,將不到平均距離兩倍的兩個字符歸屬于同一單詞,從而得到詞級別的候選區(qū)域;
步驟5,根據(jù)步驟4得到的詞級別的候選區(qū)域,每一個字符都屬于一個單詞,一個單詞是由至少一個字符構成,把構造出的所有單詞作為詞級別的數(shù)據(jù)集,根據(jù)詞級別的文本標注信息,截取對應區(qū)域作為正類,將與正類沒有重合的區(qū)域作為負類;
步驟6,根據(jù)步驟5得到的正類和負類,將它們作為輸入,搭建深度度量模型并訓練,該訓練好的模型能夠用于詞級別的分類;
步驟7,根據(jù)步驟6得到的深度度量模型,對待測試圖像進行過濾,得到最終的文本區(qū)域。
2.根據(jù)權利要求1所述的方法,其特征在于,步驟1中在運用MSER算法時,將MSER的閥值設置為最小的1,在檢測一張圖像中的文本區(qū)域時,需要在H,L,S和灰度四個通道均運用MSER算法。
3.根據(jù)權利要求2所述的方法,其特征在于,步驟6包括:
步驟6-1,將步驟5得到的詞級別的數(shù)據(jù)集中一幅圖像轉化到d維歐幾里得空間,則有:
在這個公式(1)中,是一對三元組,和是步驟5中構建詞級別的數(shù)據(jù)集中屬于同一類的樣本,是與類別不一樣的樣本,f()指示的是深度度量模型,margin是樣本對與樣本對之間的參數(shù)值;
步驟6-2,設計如下?lián)p失函數(shù)L:
具體的梯度推導過程如下:
其中,Ni表示樣本數(shù),表示深度度量模型對第i個祖先樣本提取的特征,表示與第i個祖先類別相同的樣本提取的特征,表示與第i個祖先類別不同的樣本提取的特征;
步驟6-3,利用損失函數(shù)訓練深度度量模型,深度度量模型的網(wǎng)絡一共包括兩層卷積層,兩層池化層,兩層全連接層,先將步驟5得到的詞級別的數(shù)據(jù)集中所有圖像全部歸一化為32×32,第一個卷積層卷積核數(shù)目為6個,卷積核大小為5×5;第二個卷積層卷積核數(shù)目為12個,卷積核大小為5×5,卷積核參數(shù)初始化方式為隨機,第一個卷積層輸出6張卷積圖,大小為28×28,池化層的大小為2×2,池化策略采用的是最大池化方式,第一次池化后,特征圖大小為14×14;第二次卷積后,特征圖大小為10×10,全連接層的數(shù)目分別為150和50,卷積完后加入L2正則化層,使得到的特征規(guī)范化,經(jīng)過這些層處理后,步驟5得到的詞級別的數(shù)據(jù)集中所有圖像變?yōu)橛行У奶卣骱瘮?shù),最后引入Triplet loss層訓練,步驟6-2中提出的順時函數(shù)即為triplet loss。
4.根據(jù)權利要求3所述的方法,其特征在于,步驟7包括:對于一張待測試圖像,利用步驟1的方法檢測得出字符級別的候選區(qū)域,利用步驟2的深度神經(jīng)網(wǎng)絡,去掉候選區(qū)域的負樣本,利用步驟3和步驟4的方法,構造出候選的詞級別區(qū)域,再利用步驟6中的深度度量模型對每個詞級別區(qū)域分類,過濾掉負類,從而得到最終的文本區(qū)域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網(wǎng)遼寧省電力有限公司信息通信分公司;南京大學;南京南瑞信息通信科技有限公司,未經(jīng)國網(wǎng)遼寧省電力有限公司信息通信分公司;南京大學;南京南瑞信息通信科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810568042.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





