[發明專利]一種運用視覺信息的零資源機器翻譯方法有效
| 申請號: | 202010835980.2 | 申請日: | 2020-08-19 |
| 公開(公告)號: | CN112016604B | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 孫仕亮;黃平;張楠;殷敏智 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/58;G06N3/04;G06N3/08 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 運用 視覺 信息 資源 機器翻譯 方法 | ||
本發明公開了一種運用視覺信息的零資源機器翻譯方法,該方法具備翻譯能力前需要使用含有圖片信息的單語語料訓練一個翻譯模型。在訓練完成后,本方法就有了翻譯的能力。本發明的創新點在于在沒有平行語料而具有對應圖片的情景(零資源情景)下達到良好的翻譯性能。本發明以Transformer為基礎翻譯模型,并引入預訓練語言模型,在減少訓練時間的同時提升性能。本發明在典型Transformer中引入多模態模塊,使得翻譯模型能夠融合處理多模態數據。本發明利用了屏蔽序列恢復和回譯兩種訓練方法優化模型參數,使得翻譯模型能夠在零資源場景下完成訓練。
技術領域
本發明涉及計算機技術領域,涉及機器翻譯技術,特別涉及一種運用視覺信息的零資源機器翻譯方法。
背景技術
背景技術涉及:零資源機器翻譯,Transformer模型及圖像編碼。
1)零資源機器翻譯
零資源機器翻譯是在零資源場景下學習機器翻譯的技術。零資源機器翻譯是機器翻譯的一種,其目標與典型機器翻譯相同,同樣是將源語言的語句翻譯成目標語言的語句,但是零資源機器翻譯的訓練過程中不能使用直接或間接的平行語料,而是使用其它模態的信息連接起兩種語言。
機器翻譯的目標是將源語言的語句翻譯成目標語言的語句。用S標記源語言,用T標記目標語言,一個語言L(即S或T)的第i句語句用XL(i)表示,這個語言上的數據集由這些語句構成,表示為NL是這些語句的數量。每一句語句由一系列有序的符號(token)組成,即其中每個符號來源于該語言L的詞匯表VL,即任意一個符號xi∈VL。對于一個機器翻譯系統的翻譯函數來說,其目標是令源語言的輸入語句XS的翻譯結果與目標語言輸出語句XT語義相同。機器翻譯系統也可以是雙向的,雙向的機器翻譯系統不僅提供從源語言翻譯至目標語言的函數也提供從目標語言翻譯至源語言的函數
在典型機器翻譯中,系統在能夠進行翻譯任務之前需要接受訓練,而且這個訓練過程中會使用到平行語料,即語義相互對應的一對語句XS與XT。這個訓練過程的數據集是成對語句的集合N是語句對的數量。翻譯模型的翻譯結果會被用于和XT對比,通過某種損失函數計算出損失值,使用梯度下降技術更新翻譯模型中的相關參數,從而訓練出一個可用的翻譯模型。
零資源機器翻譯與典型機器翻譯的區別在于“零資源”。在零資源機器翻譯中,訓練過程不需要平行語料,而是利用其他信息作為橋梁間接地連接兩種語言,例如使用第三種語言或者利用圖片模態(視覺模態)。在現實生活中,人類也可以使用第三種語言解釋兩種語言,或者使用圖片將兩種語言的事物對應起來(例如使用一張狗的圖片指代中文詞匯“狗”和英文詞匯“dog”)。因此零資源機器翻譯任務符合現實世界中人類學習外語的方式,是可行的。
具體地說,零資源機器翻譯任務與典型機器翻譯任務有兩點不同。第一點是零資源機器翻譯的訓練過程不使用平行語料。這意味著零資源機器翻譯的數據集不再是語句對的形式,而且兩個語言有各自的語句集,即和NS和NT是兩種語言各自語句的數量,它們未必相等,而兩個語句集中的語句也沒有對應關系。第二點不同是零資源機器翻譯需要額外的信息來溝通兩種語言,這種信息被稱為樞軸(pivot)。例如以第三語言為樞軸的零資源機器翻譯和以圖片為樞軸的零資源機器翻譯等。在以圖片為樞軸的零資源機器翻譯中,每個句子都有一張相對應的圖片,這句句子是這張圖片的描述。因此,每個語言中的數據除了語句集還有與語句對應的圖片集。具體地說,每個語言上有一個語句圖像對的集合其中IL(i)是與XL(i)對應的一張圖像。需要注意的是,兩個語言中的圖片集含有相似的圖片,但是不需要重合,即與未必含有相同元素,否則將產生間接的平行語料。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010835980.2/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





