[發明專利]多語言圖像標題生成模型在審
| 申請號: | 202110432894.1 | 申請日: | 2021-04-21 |
| 公開(公告)號: | CN113077010A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 艾山·吾買爾;張大任;早克熱·卡德爾;買合木提·買買提;吐爾根·依布拉音;汪烈軍;宜年;石瑞;郭一賢 | 申請(專利權)人: | 新疆大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08;G06F40/58;G06F40/49;G06F40/51 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 盛君梅 |
| 地址: | 830046 新疆維*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 圖像 標題 生成 模型 | ||
本發明公開了一種多語言圖像標題生成模型,涉及信息技術領域,該多語言圖像標題生成模型基于完全自注意力結構先將圖像分割成固定大小的小塊,然后將這些小塊的線性投影連同它們的圖像位置一起輸入變壓器的。然后剩下的步驟就是一個干凈的和標準的Transformer編碼器和解碼器。在圖像patch的嵌入中加入位置嵌入,通過不同的策略在全局范圍內保留空間/位置信息。嘗試了不同的空間信息編碼方法,包括無位置信息編碼、1D/2D位置嵌入編碼和相對位置嵌入編碼。
技術領域
本發明涉及信息技術領域,特別涉及一種多語言圖像標題生成模型。
背景技術
現有的圖像標題生成方法是使用編碼器解碼器結構,此結構的輸入是一幅圖像,而輸出則是一段描述該圖像內容的文字。編碼器部分是把圖像編碼成為一個中間向量,解碼器將這個中間向量解碼成該圖像的描述性文字。圖像內容的向量表示其實就是這其中的橋梁,也就是編碼器的輸出,后面解碼器輸出的描述性文字的準確性就是由這個橋梁的質量所決定的。因此,要想取得良好的任務效果,必要條件就是有一個良好的提取圖像特征的方法。
發明內容
本發明所要解決的技術問題是提供一種多語言圖像標題生成模型,搭建多語言數據集,構建單語言圖像標題生成模型,構建多語言圖像標題生成模型。
為實現上述目的,本發明提供以下的技術方案:
該多語言圖像標題生成模型基于完全自注意力結構先將圖像分割成固定大小的小塊,然后將這些小塊的線性投影連同它們的圖像位置一起輸入變壓器的。然后剩下的步驟就是一個干凈的和標準的Transformer編碼器和解碼器。在圖像patch的嵌入中加入位置嵌入,通過不同的策略在全局范圍內保留空間/位置信息。嘗試了不同的空間信息編碼方法,包括無位置信息編碼、1D/2D位置嵌入編碼和相對位置嵌入編碼。與一維位置嵌入相比,二維位置嵌入并沒有帶來顯著的性能提升。與基于完全自注意力結構的Transformer相比,混合結構是將卷積神經網絡提取出的特征向量作為標準Transformer輸入,其他方面基本類似。純Transformer架構在大小和計算規模上都比傳統的CNNs更具效率和可擴展性,深度學習相關的圖像標題生成方法的發展離不開包含成對圖像標題的公開數據集。針對多語言數據集稀缺的情況,對圖像標題生成領域的小型通用數據集Flickr8k進行多語言標注,為了把英語的數據集擴展為多語言的數據集,以Flickr8k數據集作為基準,多語言數據集都直接或間接來自Flickr8K的原始英文翻譯,但僅通過公開翻譯網頁進行機器翻譯無法保證多語言數據集質量,因此對數據集進行了一系列校正操作以保證數據集質量。
采用以上技術方案的有益效果是:該多語言圖像標題生成模型提出了單編碼器多解碼器多語言聯合訓練圖像標題生成模型以及單編碼器單解碼器統一多語言圖像標題生成模型,在圖像標題生成質量及資源占用上對比單語言有所提升。針對多語言集外詞過多的情況,本文提出基于字節對編碼切分的多語言圖像標題生成模型,針對多語言聯合訓練過程過語言差異過大導致收斂速度慢且忽視語言間語音相似性的情況,本文提出多語言拉丁化圖像標題生成模型。
附圖說明
下面結合附圖對本發明的具體實施方式作進一步詳細的描述。
圖1是三種激活函數圖;
圖2是原始軟注意力與改進軟注意力結構圖;
圖3是兩種不同的注意力模型結構圖;
圖4是多任務學習結構圖。
具體實施方式
下面結合附圖詳細說明該多語言圖像標題生成模型的優選實施方式。
圖1至圖4出示該多語言圖像標題生成模型的具體實施方式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆大學,未經新疆大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110432894.1/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





