[發明專利]一種基于特征對齊和熵正則化的域適應文本圖像識別方法在審
| 申請號: | 202210477095.0 | 申請日: | 2022-05-02 |
| 公開(公告)號: | CN115050032A | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 彭良瑞;唐沛;閆睿劼;姚剛;石浩東;劉長松 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19;G06V30/41;G06V10/82;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 單冠飛 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 對齊 正則 適應 文本 圖像 識別 方法 | ||
1.一種基于特征對齊和熵正則化的域適應文本圖像識別方法,其特征在于,所述方法包括:
S1,將源域樣本有文本標簽的文本行圖像作為單路數據按批次輸入具有編碼器與解碼器架構的模型,通過所述編碼器將輸入的所述文本行圖像轉換為隱含表示特征序列,通過所述解碼器將所述隱含表示特征序列轉換輸出為初始預測文本序列及所述預測文本序列各字符的預測概率,利用所述解碼器的轉換輸出和源域樣本文本標簽計算源域交叉熵損失,通過所述源域交叉熵損失極小化求解得到初始識別模型;
S2,將所述源域樣本有文本標簽的文本行圖像和目標域無文本標簽的文本行圖像作為雙路數據按批次輸入所述初始識別模型,計算域適應學習的總損失函數,通過所述總損失函數極小化求解得到最終識別模型;其中,所述總損失函數包括:所述源域交叉熵損失、目標域的信息熵正則項和源域與目標域的特征對齊損失;
S3,將待測試的目標域文本行圖像輸入所述最終識別模型,得到所述解碼器輸出的最終預測文本序列。
2.根據權利要求1所述的方法,其特征在于,所述目標域的信息熵正則項的計算方法,包括:
對于按批次輸入所述初始識別模型的目標域文本行圖像,利用所述解碼器的輸出預測文本序列及所述預測文本序列各字符的預測概率,根據信息熵的定義計算每批次目標域數據的平均信息熵,作為所述目標域的信息熵正則項。
3.根據權利要求1所述的方法,其特征在于,所述源域與目標域的特征對齊損失的計算方法,包括:
將源域與目標域雙路數據按批次輸入所述初始識別模型,對于所述編碼器提取的隱含表示特征序列,分別計算每路數據隱含表示特征序列中特征向量的一階統計量和二階統計量,得到所述雙路數據之間一階和二階統計量的差異總和,作為所述源域與目標域的特征對齊損失。
4.根據權利要求1所述的方法,其特征在于,所述源域交叉熵損失的計算方法,包括:
對于所述解碼器輸出的源域樣本預測文本序列中的每一字符及對應的預測概率,利用所述源域樣本文本標簽中對應的字符真值,計算每批次源域數據的平均交叉熵作為所述源域交叉熵損失。
5.根據權利要求1所述的方法,其特征在于,所述方法,還包括:
對所述源域樣本文本標簽進行預處理,統計所述源域樣本文本標簽中的字符集合,并在所述字符集合和所述文本標簽中添加控制符號;
對每張文本行圖像進行預處理,將文本行圖像的像素值動態范圍線性變換到預設區間,并將所述每張文本行圖像在保持圖像寬高比不變條件下,將圖像高度歸一化到預設高度。
6.一種基于特征對齊和熵正則化的域適應文本圖像識別裝置,其特征在于,包括:
初始識別模型獲取模塊,用于將源域樣本有文本標簽的文本行圖像作為單路數據按批次輸入具有編碼器與解碼器架構的模型,通過所述編碼器將輸入的所述文本行圖像轉換為隱含表示特征序列,通過所述解碼器將所述隱含表示特征序列轉換輸出為初始預測文本序列及所述預測文本序列各字符的預測概率,利用所述解碼器的轉換輸出和源域樣本文本標簽計算源域交叉熵損失,通過所述源域交叉熵損失極小化求解得到初始識別模型;
最終識別模型獲取模塊,用于將所述源域樣本有文本標簽的文本行圖像和目標域無文本標簽的文本行圖像作為雙路數據按批次輸入所述初始識別模型,計算域適應學習的總損失函數,通過所述總損失函數極小化求解得到最終識別模型;其中,所述總損失函數包括:所述源域交叉熵損失、目標域的信息熵正則項和源域與目標域的特征對齊損失;
文本預測模塊,用于將待測試的目標域文本行圖像輸入所述最終識別模型,得到所述解碼器輸出的最終預測文本序列。
7.根據權利要求6所述的裝置,其特征在于,所述最終識別模型獲取模塊,包括:
信息熵正則項計算模塊,用于對于按批次輸入所述初始識別模型的目標域文本行圖像,利用所述解碼器的輸出預測文本序列及所述預測文本序列各字符的預測概率,根據信息熵的定義計算每批次目標域數據的平均信息熵,作為所述目標域的信息熵正則項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210477095.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種絕緣工具耐壓自動試驗裝置
- 下一篇:返青箬葉中銅、鋅遷移量的測定方法





