[發明專利]一種端到端的文本圖像合成和識別的方法及系統有效

申請號：	202310026637.7	申請日：	2023-01-09
公開（公告）號：	CN115936979B	公開（公告）日：	2023-06-02
發明（設計）人：	廖萬里;金卓;梁芳烜;肖飛;劉金朝	申請（專利權）人：	珠海金智維信息科技有限公司
主分類號：	G06T3/00	分類號：	G06T3/00;G06N3/04;G06V10/82;G06V30/18;G06V30/19
代理公司：	廣州君策達知識產權代理事務所(普通合伙) 44749	代理人：	陳宏升
地址：	519075 廣東省珠海市香***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種端到端文本圖像合成識別方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種端到端的文本圖像合成和識別的方法，其特征在于，包括以下步驟：

以Transformer網絡和VGG網絡為基礎網絡，構造生成對抗網絡，由此得到文本圖像生成器；文本圖像生成器利用Transformer網絡的自注意力機制提高特征提取能力，合成逼真的數據；

然后，將文本圖像生成器輸出的合成圖像輸入以VGG網絡構造的判別器分支，對真實數據和合成數據進行判別，同時輸入以Transformer網絡構造的識別器分支，識別真實數據；

最后，將判別結果和識別結果損失返回文本圖像生成器，提高生成器訓練，直至判別器無法判斷數據真假和識別網絡能準確識別真實圖像，完成數據合成模型訓練。

2.根據權利要求1所述端到端的文本圖像合成和識別的方法，其特征在于，采用生成對抗方式合成目標圖像，文本圖像生成器使用Transformer網絡構造，Transformer網絡合成圖像過程中采用位置向量編碼，將位置信息嵌入噪聲序列，輸入多頭注意力機制中編碼全局特征和局部特征，以獲得具有位置信息的合成切片，并通過隱式神經表征層拼接切片，合成目標圖像。

3.根據權利要求1所述端到端的文本圖像合成和識別的方法，其特征在于，采用了Transformer網絡和CNN網絡共同構造的方式來完成文本圖像合成和識別：第一，文本圖像合成直接采用以Transformer和VGG網絡構造的生成對抗方式一步合成目標圖像，通過多頭注意力機制編碼噪聲和位置信息，獲取位置編碼特征切片，然后使用隱式神經表層拼接特征切片，有效合成逼真的目標圖像；第二，文本圖像識別全部采用Transformer網絡構造，包括殘差塊、多頭注意力機制和掩碼多頭注意力機制，采用多頭注意力機制編碼圖像切片的特征和位置信息，注重切片中文本所在位置的特征信息；掩碼多頭注意力機制結合前面切片和后續切片的特征和位置信息，替代LSTM的復雜結構，實現序列化信息訓練；第三，采用端到端的文本圖像合成和識別方式，相互促進生成器、優化器和識別器的優化，降低訓練損失，減少真實圖像需求，提高模型的訓練效果。

4.根據權利要求1所述端到端的文本圖像合成和識別的方法，其特征在于，還包括數據預處理步驟：

采用K折交叉驗證方法劃分數據集；訓練前，將獲取的真實數據集S劃分為K份數據集：S₁,S₂,S₃…S_K-1?,S_K，使用K-1份作為訓練集，剩下的1份作為驗證集；訓練過程執行K輪訓練，共獲得K個模型的驗證結果，并對K個驗證結果取均值，作為算法整體性能驗證。

5.根據權利要求1所述端到端的文本圖像合成和識別的方法，其特征在于，所述文本圖像生成器包括輸入映射網絡、Transformer網絡的編碼器模塊、自調制型層范數和隱式神經表征層；其中，Transformer網絡的編碼器模塊包括位置向量編碼層、多頭注意力層和輸出映射層；高斯噪聲Z經過輸入映射網絡進行線性投影,便于自調制型層范數將輸出嵌入映射到Transformer模塊的位置向量編碼層輸出的切片；然后，將帶有位置編碼信息的圖像塊輸入多頭注意力層和輸出映射網絡，則相應輸出編碼后的待拼接的切片序列；最后，采用隱式神經表征層學習輸出切片到待拼接的切片的像素連續映射，當與傅立葉特征或正弦激活函數結合時，隱式表示將生成的樣本空間約束到平滑變化的自然信號空間，則將向量保存為圖像。

6.根據權利要求1所述端到端的文本圖像合成和識別的方法，其特征在于，所述以VGG網絡構造的判別器分支，由3x3卷積核構建的13個卷積層，2x2大小的最大池化層和3個全連接層構成，最后輸出經過softmax函數進行分類，分類時自定義真實圖像為1，合成圖像為0；訓練過程中，判別器分支接收合成圖像和真實圖像進行分類，獲得判別損失，并將判別損失返回到生成器，直至判別器分支判別生成器合成圖像為1。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于珠海金智維信息科技有限公司，未經珠海金智維信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202310026637.7/1.html，轉載請聲明來源鉆瓜專利網。