[發(fā)明專利]基于多任務(wù)訓(xùn)練的端到端圖像文本翻譯方法、系統(tǒng)、裝置有效
| 申請?zhí)枺?/td> | 202110306816.7 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN113011202B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設(shè)計)人: | 趙陽;馬聰;張亞萍;周玉 | 申請(專利權(quán))人: | 中國科學(xué)院自動化研究所 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/42;G06N3/0455;G06N3/092;G06N3/044;G06N5/022 |
| 代理公司: | 北京市恒有知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 任務(wù) 訓(xùn)練 端到端 圖像 文本 翻譯 方法 系統(tǒng) 裝置 | ||
1.一種基于多任務(wù)訓(xùn)練的端到端圖像文本翻譯方法,其特征在于,該方法包括:
步驟S10,獲取待翻譯的數(shù)據(jù),作為輸入數(shù)據(jù);所述輸入數(shù)據(jù)包括圖像、視頻、文本;
步驟S20,對所述輸入數(shù)據(jù)進行預(yù)處理,預(yù)處理后,輸入預(yù)構(gòu)建的圖像文本翻譯模型,得到所述輸入數(shù)據(jù)對應(yīng)的翻譯結(jié)果;
所述圖像文本翻譯模型包括特征提取器、編碼器-解碼器;所述圖像文本翻譯模型其訓(xùn)練方法為:
A10,獲取訓(xùn)練樣本數(shù)據(jù)及其對應(yīng)的翻譯結(jié)果真值標(biāo)簽;所述訓(xùn)練樣本數(shù)據(jù)包括圖像、視頻、文本;
A20,對所述訓(xùn)練樣本數(shù)據(jù)進行預(yù)處理,得到預(yù)處理數(shù)據(jù);并提取所述預(yù)處理數(shù)據(jù)的特征;
其中,提取所述預(yù)處理數(shù)據(jù)的特征,其方法為:
若所述輸入數(shù)據(jù)為圖像/視頻,提取過程為:通過基于殘差連接的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的特征提取器提取預(yù)處理數(shù)據(jù)的特征;并利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對圖像特征進行初步的序列建模;
若所述輸入數(shù)據(jù)為文本,提取過程為:通過詞嵌入模型對所述預(yù)處理數(shù)據(jù)進行向量化表示;
A30,將提取的特征輸入編碼器-解碼器中,得到訓(xùn)練樣本數(shù)據(jù)對應(yīng)的翻譯預(yù)測結(jié)果;
A40,計算翻譯預(yù)測結(jié)果、翻譯結(jié)果真值標(biāo)簽的損失值,并將圖像、視頻、文本不同類別的訓(xùn)練樣本數(shù)據(jù)對應(yīng)的損失值進行加權(quán)求和,作為總損失;基于所述總損失更新圖像文本翻譯模型的模型參數(shù);
步驟A40之后還包括對圖像文本翻譯模型的強化訓(xùn)練,其方法為:結(jié)合訓(xùn)練好的圖像文本識別模型和文本機器翻譯模型,通過預(yù)設(shè)的多教師分部知識蒸餾方法對圖像文本翻譯模型進行強化訓(xùn)練學(xué)習(xí);所述圖像文本識別模型均基于特征提取器、編碼器、解碼器構(gòu)建;
通過預(yù)設(shè)的多教師分部知識蒸餾方法對圖像文本翻譯模型進行強化訓(xùn)練學(xué)習(xí),具體包括:
將圖像文本識別模型作為教師模型:通過圖像文本識別模型對輸入的包含文本的圖像進行解碼輸出,用輸出的句子或每一時刻在源端詞表上對各個詞語的預(yù)測分布作為監(jiān)督信息,對所述圖像文本翻譯模型的特征提取器、編碼器進行監(jiān)督學(xué)習(xí);
將文本機器翻譯模型作為教師模型:通過文本機器翻譯模型對輸入的源端文本進行解碼輸出,用輸出的目標(biāo)端文本或每一時刻在目標(biāo)端詞表上對各個詞語的預(yù)測分布作為監(jiān)督信息,對所述圖像文本翻譯模型的解碼器進行監(jiān)督學(xué)習(xí)。
2.根據(jù)權(quán)利要求1所述的基于多任務(wù)訓(xùn)練的端到端圖像文本翻譯方法,其特征在于,
若所述輸入數(shù)據(jù)為文本,預(yù)處理包括:標(biāo)點符號標(biāo)準(zhǔn)化、分詞以及將低頻詞替換為特殊標(biāo)記;所述低頻詞為未出現(xiàn)在詞表中的詞匯;
若所述輸入數(shù)據(jù)為圖像,預(yù)處理包括:圖像尺寸變換、圖像文本檢測、分割、矯正;
若所述輸入數(shù)據(jù)為視頻,預(yù)處理過程為:將視頻分幀,并提取視頻的幀圖像;將幀圖像按照圖像預(yù)處理方法進行預(yù)處理。
3.根據(jù)權(quán)利要求1所述的基于多任務(wù)訓(xùn)練的端到端圖像文本翻譯方法,其特征在于,所述編碼器基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建;所述解碼器基于注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建。
4.根據(jù)權(quán)利要求1所述的基于多任務(wù)訓(xùn)練的端到端圖像文本翻譯方法,其特征在于,所述編碼器-解碼器為基于自注意力機制的編碼器-解碼器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院自動化研究所,未經(jīng)中國科學(xué)院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110306816.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





