[發明專利]一種基于人機協同的場景文本識別方法在審
| 申請號: | 201911057325.2 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN110796143A | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 朱鵬飛;馬永娟;胡清華 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04 |
| 代理公司: | 11407 北京彭麗芳知識產權代理有限公司 | 代理人: | 胡若玲 |
| 地址: | 300350 天津市津*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 場景文本 訓練集 標注 訓練數據集 訓練模型 數據集 初步處理 人工標注 人機協同 文字識別 測試集 置信度 預測 微調 樣本 標簽 重復 網絡 | ||
1.一種基于人機協同的場景文本識別方法,其特征在于:采用人機協同去標注當前未標記的樣本,包括以下步驟:
S1、對已有的場景文本數據集做初步處理,從中選取預訓練數據集、訓練集和測試集;
S2、使用預訓練數據集訓練深度神經網絡,獲取可進行場景文本識別的神經網絡模型,得預訓練模型;
S3、采用所述預訓練模型對未標記的訓練集進行預測,根據模型對未標記訓練集生成的預測標簽置信度的高低,將未標記訓練集分為Hard sample和Easy sample;對Hardsample進行人工標注,對Easy sample用模型進行偽標注,然后用標注后的樣本微調場景文本識別模型;
S4、重復步驟S3,持續微調場景文本識別模型,直到Unlabeled data為0或者模型的性能達到預期的要求。
2.如權利要求1所述的一種基于人機協同的場景文本識別方法,其特征在于:所述步驟S2中,采用SEE網絡結構作為人機協同的端到端場景文本識別的骨架,SEE網絡結構包括STN和ResNet-18兩部分;
STN即空間轉換網絡,它通過對輸入的場景文本圖片進行反向空間變換來消除輸入圖片上目標的變形,獲得僅包含文本的形狀規則的圖片,用于場景文字的檢測;
ResNet-18為包含18個權重層的深度殘差網絡,該網絡用于對STN檢測出的場景文字的識別。
3.如權利要求2所述的一種基于人機協同的場景文本識別方法,其特征在于:所述STN包括:
Localisation Network,是一個用來回歸變換參數θ的自定義回歸網絡,用于參數預測,它的輸入是特征圖像U,然后經過一系列的隱藏網絡層輸出空間變換參數θ,矩陣θ的尺寸取決于變換的類型,計算公式如下:
θ=floc(U) (1)
式中,U是輸入的特征圖像;θ是Localisation Network學得的空間變換參數;
Grid generator,用于坐標映射,根據輸出特征圖V中的坐標點和變換參數θ,通過矩陣運算,計算出目標圖V中的每個位置對應原圖U中的坐標位置,即生成Tθ(Gi);
式中,(xit,yit)是輸出的目標圖片V中的坐標,(xis,yis)是原圖片U中的坐標,Aθ表示仿射關系,空間變換函數Tθ為二維仿射變換函數;
Sampler,用于像素采集,采樣器根據采樣網格Tθ(Gi)中的坐標信息,在原始特征圖U中進行采樣,將U中的像素復制填充到目標圖V中,得到了特征圖經過變換之后的結果;填充時根據公式(3)填充:
式中,Ucnm表示位于顏色通道c中坐標為(n,m)的值,kernelk表示一種線性插值方法,Φx,Φy分別是對應于x坐標和y坐標的插值函數的參數;H是特征圖U的高度,W是特征圖U的寬度,c是特征圖U的某個通道,是原圖片U中的坐標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911057325.2/1.html,轉載請聲明來源鉆瓜專利網。





