[發明專利]一種多模態模型訓練方法、裝置、設備及存儲介質有效
| 申請號: | 202011224819.8 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112464993B | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 李曉川;范寶余;張潤澤 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/42 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 劉翠香 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多模態 模型 訓練 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種多模態模型訓練方法,該方法包括以下步驟:獲得訓練樣本集,依次使用訓練樣本集中的每個訓練樣本對對多模態模型進行多輪訓練,針對任意一個訓練樣本對,在使用該訓練樣本對訓練的過程中,先獲得目標視覺樣本的圖像特征,再確定是否需要對目標原始文本進行回譯處理,如果需要,則進行相應的回譯處理,獲得目標回譯文本,并獲得目標回譯文本的文本特征,基于圖像特征和文本特征,對多模態模型進行訓練。應用本申請所提供的技術方案,使得訓練樣本對的數量得以增加,可以加快模型收斂速度,有效避免出現過擬合現象,提高多模態模型魯棒性。本申請還公開了一種多模態模型訓練裝置、設備及存儲介質,具有相應技術效果。
技術領域
本申請涉及計算機應用技術領域,特別是涉及一種多模態模型訓練方法、裝置、設備及存儲介質。
背景技術
隨著計算機技術的快速發展,多模態學習逐漸成為新的研究熱點。近年來,深度學習的普及使得基于機器學習的人工智能取得了長足的發展。例如,卷積神經網絡的廣泛應用,使得計算機視覺領域的目標檢測、語義分割、模式識別等方向均取得了較大進展;transformer編碼器的發明,使得自然語言處理領域的機器翻譯、文本糾錯、文本搜索等任務都取得了較大提高。這些領域的快速發展使得對于多模態學習領域的關注越來越多。一方面,是因為人類對世界的理解是多個維度的,通常用眼睛看、用耳朵聽、用鼻子聞、用身體去感知,并通過大腦綜合處理這些復雜的信息,實現對客觀事物的感知、理解和推理,多模態學習可以使計算機更好地模仿人類的行為,模擬人的感知能力。另一方面,諸如計算機視覺、自然語言處理等單一模態領域的迅猛發展,也為多模態學習提供了強大的理論和實踐基礎。
多模態學習的輸入包括視覺和文本兩個模態,計算機模型通過同時學習這兩個模態的樣本獲取感知和理解的能力。其中,視覺模態包括圖片、視頻等;文本模態包括各種語言的摘要文檔、問答、對話等。典型的視覺-文本多模態學習課題如VQA(Visual QuestionAnswering,視覺問答),旨在使計算機獲得根據圖片和問句內容推理答案的能力;再如VLM(Visual-Language Matching,視覺語言匹配),旨在使計算機獲得判斷圖文是否匹配的能力。
多模態學習的過程也即多模態模型訓練的過程,目前,對于多模態模型訓練,存在的問題是,訓練樣本的數量較少,使得模型難以收斂,而且,訓練樣本分布偏差較大,容易出現模型過擬合現象。
發明內容
本申請的目的是提供一種多模態模型訓練方法、裝置、設備及存儲介質,以增加訓練樣本對數量,加快模型收斂速度,同時可以有效避免出現過擬合現象,提高模型魯棒性。
為解決上述技術問題,本申請提供如下技術方案:
一種多模態模型訓練方法,包括:
獲得訓練樣本集,所述訓練樣本集中包含多個訓練樣本對,每個訓練樣本對包含一個視覺樣本和對應的原始文本;
依次使用所述訓練樣本集中的每個訓練樣本對,對多模態模型進行多輪訓練,直至達到設定結束條件;
針對所述訓練樣本集中的任意一個訓練樣本對,每次均通過以下步驟使用該訓練樣本對對所述多模態模型進行訓練:
獲得該訓練樣本對包含的目標視覺樣本的圖像特征;
確定是否需要對該訓練樣本對包含的目標原始文本進行回譯處理;
如果是,則對所述目標原始文本進行回譯處理,獲得目標回譯文本;
獲得所述目標回譯文本的文本特征;
基于所述目標視覺樣本的圖像特征和所述目標回譯文本的文本特征,對所述多模態模型進行訓練。
在本申請的一種具體實施方式中,所述對所述目標原始文本進行回譯處理,包括:
通過回譯模塊對所述目標原始文本進行回譯處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011224819.8/2.html,轉載請聲明來源鉆瓜專利網。





