[發明專利]一種端到端的文本圖像合成和識別的方法及系統有效
| 申請號: | 202310026637.7 | 申請日: | 2023-01-09 |
| 公開(公告)號: | CN115936979B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 廖萬里;金卓;梁芳烜;肖飛;劉金朝 | 申請(專利權)人: | 珠海金智維信息科技有限公司 |
| 主分類號: | G06T3/00 | 分類號: | G06T3/00;G06N3/04;G06V10/82;G06V30/18;G06V30/19 |
| 代理公司: | 廣州君策達知識產權代理事務所(普通合伙) 44749 | 代理人: | 陳宏升 |
| 地址: | 519075 廣東省珠海市香*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 端到端 文本 圖像 合成 識別 方法 系統 | ||
本發明公開了一種端到端的文本圖像合成和識別的方法及系統,所述方法包括以下步驟:以Transformer網絡和VGG網絡為基礎網絡,構造合成逼真數據的文本圖像生成器;將文本圖像生成器輸出的合成圖像分別輸入判別器分支、識別器分支;最后,將判別結果和識別結果損失返回文本圖像生成器,提高生成器訓練,直至判別器無法判斷數據真假和識別網絡能準確識別真實圖像,完成數據合成模型訓練。本發明克服了人工合成圖像造成的主觀性強的缺陷,改善了前期的GAN合成圖像中生成器圖像特征提取能力較差的問題,能夠有效生成文本圖像識別的訓練數據,解決無法大量獲取需保密數據的問題,滿足文本圖像識別模型訓練的數據需求。
技術領域
本發明涉及圖像處理領域,特別涉及一種端到端的文本圖像合成和識別的方法及系統。
背景技術
深度學習大致可分為監督學習算法、半監督學習算法和無監督學習算法。相比其余兩種學習算法,監督學習算法訓練特定的輸入和輸出數據,直到可以判定輸入和輸出結果的基本關系。因此,監督學習算法在實際應用中表現效果更優,使用更加廣泛,如圖像識別、分類、分割和檢測等。然而,監督學習算法受限于高質量的標注數據,如圖像貓狗分類任務,需要大量的不同品種、大小、毛色等貓狗的圖像,并需要分別正確嚴格標記對應分類,才能進行有效訓練和識別。監督學習算法表現優異,但真實數據有隱私保密和稀少的特性,導致訓練數據獲取難度大,人工標記時間和成本高等缺陷。
針對監督學習算法嚴重依賴訓練數據的問題,最簡單直接的方式是人為觀察數據特征,制定合成規則,合成類似的數據,缺陷是人為主觀性較強,合成數據特征分布偏離真實數據特征分布。其次,卷積神經網絡(CNN)可以提取圖像特征,人們嘗試采用CNN構造生成對抗網絡(GAN),即分別構造生成器和判別器。GAN中生成器和判別器相互博弈,生成器合成圖像,判別器判別合成圖像和真實圖像的真假,并將結果返回文本圖像生成器進行優化,訓練直至判別器無法正確區分合成圖像合真實圖像。GAN合成數據方式是無監督學習算法,降低了數據需求,但完全依賴網絡學習特征,受限于CNN特征學習性能,合成圖像會出現不可控的特征因素,如馬和斑馬的轉換中,將騎在馬背上的人也渲染了斑馬的紋理,包括后續改進的pix2pix、CycleGan和條件生成對抗網絡都存在類似問題。
發明內容
本發明的目的在于克服現有技術的缺點與不足,提供一種端到端的文本圖像合成和識別的方法,該方法克服了人工合成圖像造成的主觀性強的缺陷,改善了前期的GAN合成圖像中生成器圖像特征提取能力較差的問題,能夠有效生成文本圖像識別的訓練數據,解決無法大量獲取需保密數據的問題,滿足文本圖像識別模型訓練的數據需求。
本發明的另一目的在于提供一種端到端的文本圖像合成和識別的系統,能夠解決文本圖像識別訓練缺乏數據的問題。
本發明的目的通過以下的技術方案實現:
一種端到端的文本圖像合成和識別的方法,適用于只能獲取少量真實數據的圖像識別應用場景,包括以下步驟:
以Transformer網絡和VGG網絡為基礎網絡,構造生成對抗網絡,由此得到文本圖像生成器;文本圖像生成器利用Transformer網絡的自注意力機制提高特征提取能力,合成逼真的數據;
然后,將文本圖像生成器輸出的合成圖像輸入以VGG網絡構造的判別器分支,對真實數據和合成數據進行判別,同時輸入以Transformer網絡構造的識別器分支,識別真實數據;
最后,將判別結果和識別結果損失返回文本圖像生成器,提高生成器訓練,直至判別器無法判斷數據真假和識別網絡能準確識別真實圖像,完成數據合成模型訓練。
所述端到端的文本圖像合成和識別的方法,采用生成對抗方式合成目標圖像,文本圖像生成器使用Transformer網絡構造,Transformer網絡合成圖像過程中采用位置向量編碼,將位置信息嵌入噪聲序列,輸入多頭注意力機制中編碼全局特征和局部特征,以獲得具有位置信息的合成切片,并通過隱式神經表征層拼接切片,合成目標圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海金智維信息科技有限公司,未經珠海金智維信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310026637.7/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





