[發明專利]基于多任務訓練的端到端圖像文本翻譯方法、系統、裝置有效
| 申請號: | 202110306816.7 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN113011202B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 趙陽;馬聰;張亞萍;周玉 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/42;G06N3/0455;G06N3/092;G06N3/044;G06N5/022 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 訓練 端到端 圖像 文本 翻譯 方法 系統 裝置 | ||
本發明屬于自然語言處理技術領域,具體涉及一種基于多任務訓練的端到端圖像文本翻譯方法,旨在解決現有的圖像文本翻譯模型因缺乏訓練數據、模型結構設計,導致翻譯性能較差的問題。本發明方法包括:獲取待翻譯的數據,作為輸入數據;對輸入數據進行預處理,預處理后,輸入預構建的圖像文本翻譯模型,得到所述輸入數據對應的翻譯結果;圖像文本翻譯模型包括特征提取器、編碼器?解碼器。本發明提高了圖像文本翻譯性能。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種基于多任務訓練的端到端圖像文本翻譯方法、系統、裝置。
背景技術
圖像文本翻譯是利用計算機系統自動地將圖片或視頻中包含的源語言翻譯為目標語言。圖像文本翻譯技術能夠快速、有效地幫助人們翻譯和理解圖片、視頻中的文本內容。該技術可以將圖像、視頻中的一種語言的文本快速地翻譯到不同語言,來促進使用不同語言的人們的理解。
目前常用的圖像文本翻譯的架構是將圖像文本識別系統同機器翻譯系統進行系統級聯來實現對圖片中的源端語言進行翻譯。然而系統級聯的兩個子任務在各自的訓練數據集上進行獨立訓練,導致子任務的訓練領域不一致。同時,系統級聯在系統部署時,需要部署兩個分立的模型,增加了部署的復雜度,且模型存儲空間復雜度高,模型解碼時間復雜度高。端到端圖像文本翻譯系統雖然模型空間復雜度小,但是由于沒有專門針對端到端圖像文本翻譯模型結構設計以及缺乏訓練數據等問題,現階段的端到端圖像文本翻譯模型的性能依然較差。針對上述問題,本發明提出了一種基于多任務訓練的端到端圖像文本翻譯方法。
發明內容
為了解決現有技術中的上述問題,即為了解決現有的圖像文本翻譯模型因缺乏訓練數據、模型結構設計,導致翻譯性能較差的問題,本發明提出了一種基于多任務訓練的端到端圖像文本翻譯方法,該方法包括:
步驟S10,獲取待翻譯的數據,作為輸入數據;所述輸入數據包括圖像、視頻、文本;
步驟S20,對所述輸入數據進行預處理,預處理后,輸入預構建的圖像文本翻譯模型,得到所述輸入數據對應的翻譯結果;
所述圖像文本翻譯模型包括特征提取器、編碼器-解碼器;所述圖像文本翻譯模型其訓練方法為:
A10,獲取訓練樣本數據及其對應的翻譯結果真值標簽;所述訓練樣本數據包括圖像、視頻、文本;
A20,對所述訓練樣本數據進行預處理,得到預處理數據;并提取所述預處理數據的特征;
A30,將提取的特征輸入編碼器-解碼器中,得到訓練樣本數據對應的翻譯預測結果;
A40,計算翻譯預測結果、翻譯結果真值標簽的損失值,并將圖像、視頻、文本不同類別的訓練樣本數據對應的損失值進行加權求和,作為總損失;基于所述總損失更新圖像文本翻譯模型的模型參數。
在一些優選的實施方式中,若所述輸入數據為文本,預處理包括:標點符號標準化、分詞以及將低頻詞替換為特殊標記;所述低頻詞為未出現在詞表中的詞匯;
若所述輸入數據為圖像,預處理包括:圖像尺寸變換、圖像文本檢測、分割、矯正;
若所述輸入數據為視頻,預處理過程為:將視頻分幀,并提取視頻的幀圖像;將幀圖像按照圖像預處理方法進行預處理。
在一些優選的實施方式中,步驟A20中“提取所述預處理數據的特征”,其方法為:
若所述輸入數據為圖像/視頻,提取過程為:通過基于殘差連接的卷積神經網絡構建的特征提取器提取預處理數據的特征;
若所述輸入數據為文本,提取過程為:通過詞嵌入模型對所述預處理數據進行向量化表示。
在一些優選的實施方式中,所述編碼器基于雙向循環神經網絡構建;所述解碼器基于注意力機制的循環神經網絡構建。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110306816.7/2.html,轉載請聲明來源鉆瓜專利網。





