[發明專利]一種端到端的文本圖像合成和識別的方法及系統有效
| 申請號: | 202310026637.7 | 申請日: | 2023-01-09 |
| 公開(公告)號: | CN115936979B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 廖萬里;金卓;梁芳烜;肖飛;劉金朝 | 申請(專利權)人: | 珠海金智維信息科技有限公司 |
| 主分類號: | G06T3/00 | 分類號: | G06T3/00;G06N3/04;G06V10/82;G06V30/18;G06V30/19 |
| 代理公司: | 廣州君策達知識產權代理事務所(普通合伙) 44749 | 代理人: | 陳宏升 |
| 地址: | 519075 廣東省珠海市香*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 端到端 文本 圖像 合成 識別 方法 系統 | ||
1.一種端到端的文本圖像合成和識別的方法,其特征在于,包括以下步驟:
以Transformer網絡和VGG網絡為基礎網絡,構造生成對抗網絡,由此得到文本圖像生成器;文本圖像生成器利用Transformer網絡的自注意力機制提高特征提取能力,合成逼真的數據;
然后,將文本圖像生成器輸出的合成圖像輸入以VGG網絡構造的判別器分支,對真實數據和合成數據進行判別,同時輸入以Transformer網絡構造的識別器分支,識別真實數據;
最后,將判別結果和識別結果損失返回文本圖像生成器,提高生成器訓練,直至判別器無法判斷數據真假和識別網絡能準確識別真實圖像,完成數據合成模型訓練。
2.根據權利要求1所述端到端的文本圖像合成和識別的方法,其特征在于,采用生成對抗方式合成目標圖像,文本圖像生成器使用Transformer網絡構造,Transformer網絡合成圖像過程中采用位置向量編碼,將位置信息嵌入噪聲序列,輸入多頭注意力機制中編碼全局特征和局部特征,以獲得具有位置信息的合成切片,并通過隱式神經表征層拼接切片,合成目標圖像。
3.根據權利要求1所述端到端的文本圖像合成和識別的方法,其特征在于,采用了Transformer網絡和CNN網絡共同構造的方式來完成文本圖像合成和識別:第一,文本圖像合成直接采用以Transformer和VGG網絡構造的生成對抗方式一步合成目標圖像,通過多頭注意力機制編碼噪聲和位置信息,獲取位置編碼特征切片,然后使用隱式神經表層拼接特征切片,有效合成逼真的目標圖像;第二,文本圖像識別全部采用Transformer網絡構造,包括殘差塊、多頭注意力機制和掩碼多頭注意力機制,采用多頭注意力機制編碼圖像切片的特征和位置信息,注重切片中文本所在位置的特征信息;掩碼多頭注意力機制結合前面切片和后續切片的特征和位置信息,替代LSTM的復雜結構,實現序列化信息訓練;第三,采用端到端的文本圖像合成和識別方式,相互促進生成器、優化器和識別器的優化,降低訓練損失,減少真實圖像需求,提高模型的訓練效果。
4.根據權利要求1所述端到端的文本圖像合成和識別的方法,其特征在于,還包括數據預處理步驟:
采用K折交叉驗證方法劃分數據集;訓練前,將獲取的真實數據集S劃分為K份數據集:S1,S2,S3…SK-1?,SK,使用K-1份作為訓練集,剩下的1份作為驗證集;訓練過程執行K輪訓練,共獲得K個模型的驗證結果,并對K個驗證結果取均值,作為算法整體性能驗證。
5.根據權利要求1所述端到端的文本圖像合成和識別的方法,其特征在于,所述文本圖像生成器包括輸入映射網絡、Transformer網絡的編碼器模塊、自調制型層范數和隱式神經表征層;其中,Transformer網絡的編碼器模塊包括位置向量編碼層、多頭注意力層和輸出映射層;高斯噪聲Z經過輸入映射網絡進行線性投影,便于自調制型層范數將輸出嵌入映射到Transformer模塊的位置向量編碼層輸出的切片;然后,將帶有位置編碼信息的圖像塊輸入多頭注意力層和輸出映射網絡,則相應輸出編碼后的待拼接的切片序列;最后,采用隱式神經表征層學習輸出切片到待拼接的切片的像素連續映射,當與傅立葉特征或正弦激活函數結合時,隱式表示將生成的樣本空間約束到平滑變化的自然信號空間,則將向量保存為圖像。
6.根據權利要求1所述端到端的文本圖像合成和識別的方法,其特征在于,所述以VGG網絡構造的判別器分支,由3x3卷積核構建的13個卷積層,2x2大小的最大池化層和3個全連接層構成,最后輸出經過softmax函數進行分類,分類時自定義真實圖像為1,合成圖像為0;訓練過程中,判別器分支接收合成圖像和真實圖像進行分類,獲得判別損失,并將判別損失返回到生成器,直至判別器分支判別生成器合成圖像為1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海金智維信息科技有限公司,未經珠海金智維信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310026637.7/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





