[發明專利]擴散模型的優化方法、圖像生成方法、電子設備及介質在審
| 申請號: | 202310475194.X | 申請日: | 2023-04-27 |
| 公開(公告)號: | CN116629323A | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 王延峰;秦伊明;姚江超;張婭 | 申請(專利權)人: | 上海人工智能創新中心;上海交通大學 |
| 主分類號: | G06N3/0475 | 分類號: | G06N3/0475;G06N3/094;G06T11/00 |
| 代理公司: | 上海智晟知識產權代理事務所(特殊普通合伙) 31313 | 代理人: | 張瑞瑩;李鏑的 |
| 地址: | 200232 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 擴散 模型 優化 方法 圖像 生成 電子設備 介質 | ||
本發明公開一種擴散模型的優化方法,其首先在迷你批次中從擴散過程的馬爾可夫鏈路徑中對步驟進行隨機采樣,得到當前批次中的步驟t,然后對步驟t的圖像中的每個像素點進行隨機加噪,得到步驟t的噪聲圖像,并基于其通過模型對原圖進行預測,得到模型預測的噪聲,然后計算模型預測的噪聲與真實噪聲之間的均方損失,最后從遵循預設分布的標簽集合中進行采樣,得到額外的隨機標簽,并基于隨機標簽對噪聲圖像的噪聲進行重新預測,并計算分布調整損失。該方法在采樣過程中調整條件轉移概率,隱含地迫使生成的圖像在每個采樣步驟中逼近目標先驗分布,補全了針對基于長尾分布數據訓練更穩健的生成模型方向的研究空缺。
技術領域
本發明涉及機器學習技術領域,特別涉及一種擴散模型的優化方法、基于所述擴散模型的圖像生成方法、電子設備及介質。
背景技術
計算機視覺領域中,常見的深度生成模型可以分為四類:生成對抗網絡GAN、變分自編碼器VAE、基于流的模型Flow-Based?Models、以及擴散模型DM。這四種生成模型的訓練及采樣機制存在極大的區別。其中變分自編碼器VAE包含編碼器、解碼器兩部分,編碼器首先使用隱藏層將高維數據投射到低維空間中,解碼器則從低維特征中對高維數據進行重構。生成對抗網絡GAN是當前生成領域的最主流的模型,其由一個生成器及一個辨別器組成,其中生成器負責產生真實的樣本,判別器負責分辨真實樣本和生成樣本,生成對抗網絡的訓練機制需要交替地對生成器和辨別器進行更新。基于流的模型則直接對數據的概率進行學習,其使用的最主要的數學工具是一種強大的密度估計統計工具,歸一化流NF,歸一化流通過應用一系列可逆的轉換函數、將簡單分布轉換為復雜分布,基于該數學工具,模型能夠直接使用負對數似然函數對參數進行更新。擴散模型則是一種基于最大似然的生成模型,去噪擴散概率模型DDPM是其最典型、且被廣泛使用的代表,擴散模型目前已經成為生成領域許多任務的最優結果,在眾多領域得到應用,包括文本-圖像生成、圖像編輯、語音合成、醫學成像、視頻生成和對抗性學習等等。
現有的生成模型都是以數據的標簽均勻分布為假設來訓練的,然而,在現實世界中,數據的分布往往是非常偏斜的。特別是對于許多特定領域的生成任務,如醫學圖像、分類學的細粒度數據集和從網絡上抓取的數據,很難為每個類別平等地收集大量的數據,有時頭部和尾部類別的訓練集的大小可能相差一百倍甚至更多,其中頭部類別是指含有較多訓練樣本的類別,以及尾部類別是指含有較少訓練樣本的類別。由于分布嚴重不均勻的分布稱為長尾分布,類別不均衡問題也被稱為長尾問題。類別不均衡的問題在實際應用中非常常見,例如異常檢測、自然界物種的不均衡分布、以及稀有病理數據的分析等等。在這類情況下,深度學習模型的性能往往被頭部類所主導,對尾部類的學習則嚴重匱乏。不均衡學習的目標是從不均衡的數據中學習一個無偏的模型。依據應用場景,不均衡學習的研究可以涵蓋分類模型、生成模型等諸多領域。在涉及分類任務的領域中,專門研究不均衡學習現象的技術被定義為長尾識別任務。該領域的研究可被劃分為三種范式,包括類再平衡、信息增強和模塊改進等方案。在類再平衡方法中,重采樣方法通過調整不同類的樣本抽樣概率來實現類的再平衡,損失敏感學習根據不同的類來調整樣本對應的損失權重,對數調整方法根據理論推導,直接改變模型輸出值;信息增強中包括遷移學習和數據增廣,遷移學習尋求將信息從源領域轉移到目標領域,包括頭尾知識遷移、模型預訓練方法等,數據增廣則是一種通用的防止過擬合的技巧;模塊改進方法對分類器進行了調整,調整方式包括但不限于表征學習、分類器模塊設計等。
但是在涉及生成模型的領域中,類別不均衡問題則存在較大的研究空缺。現有的生成模型領域中,類別不均衡問題的解決方案主要包括類別重平衡的生成對抗網絡CBGAN以及群譜正則器,其均基于生成對抗網絡設計。其中類別重平衡的生成對抗網絡基于神經網絡中觀察到的指數遺忘現象,采用了重采樣的方法引入一個新的、具備理論動機的類平衡正則器,從而鼓勵模型關注代表性不足的尾部類別,但其性能有限。而群譜正則器則針對生成對抗網絡的特定網絡架構進行了調整,但是這也使得其無法被遷移到除了生成對抗網絡其他模型中。
發明內容
針對現有技術中的部分或全部問題,以在類別不均衡的情況下提升擴散模型的性能,本發明第一方面提供一種擴散模型的優化方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海人工智能創新中心;上海交通大學,未經上海人工智能創新中心;上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310475194.X/2.html,轉載請聲明來源鉆瓜專利網。





