[發(fā)明專利]擴散模型的優(yōu)化方法、圖像生成方法、電子設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202310475194.X | 申請日: | 2023-04-27 |
| 公開(公告)號: | CN116629323A | 公開(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計)人: | 王延峰;秦伊明;姚江超;張婭 | 申請(專利權(quán))人: | 上海人工智能創(chuàng)新中心;上海交通大學 |
| 主分類號: | G06N3/0475 | 分類號: | G06N3/0475;G06N3/094;G06T11/00 |
| 代理公司: | 上海智晟知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 31313 | 代理人: | 張瑞瑩;李鏑的 |
| 地址: | 200232 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 擴散 模型 優(yōu)化 方法 圖像 生成 電子設(shè)備 介質(zhì) | ||
本發(fā)明公開一種擴散模型的優(yōu)化方法,其首先在迷你批次中從擴散過程的馬爾可夫鏈路徑中對步驟進行隨機采樣,得到當前批次中的步驟t,然后對步驟t的圖像中的每個像素點進行隨機加噪,得到步驟t的噪聲圖像,并基于其通過模型對原圖進行預(yù)測,得到模型預(yù)測的噪聲,然后計算模型預(yù)測的噪聲與真實噪聲之間的均方損失,最后從遵循預(yù)設(shè)分布的標簽集合中進行采樣,得到額外的隨機標簽,并基于隨機標簽對噪聲圖像的噪聲進行重新預(yù)測,并計算分布調(diào)整損失。該方法在采樣過程中調(diào)整條件轉(zhuǎn)移概率,隱含地迫使生成的圖像在每個采樣步驟中逼近目標先驗分布,補全了針對基于長尾分布數(shù)據(jù)訓練更穩(wěn)健的生成模型方向的研究空缺。
技術(shù)領(lǐng)域
本發(fā)明涉及機器學習技術(shù)領(lǐng)域,特別涉及一種擴散模型的優(yōu)化方法、基于所述擴散模型的圖像生成方法、電子設(shè)備及介質(zhì)。
背景技術(shù)
計算機視覺領(lǐng)域中,常見的深度生成模型可以分為四類:生成對抗網(wǎng)絡(luò)GAN、變分自編碼器VAE、基于流的模型Flow-Based?Models、以及擴散模型DM。這四種生成模型的訓練及采樣機制存在極大的區(qū)別。其中變分自編碼器VAE包含編碼器、解碼器兩部分,編碼器首先使用隱藏層將高維數(shù)據(jù)投射到低維空間中,解碼器則從低維特征中對高維數(shù)據(jù)進行重構(gòu)。生成對抗網(wǎng)絡(luò)GAN是當前生成領(lǐng)域的最主流的模型,其由一個生成器及一個辨別器組成,其中生成器負責產(chǎn)生真實的樣本,判別器負責分辨真實樣本和生成樣本,生成對抗網(wǎng)絡(luò)的訓練機制需要交替地對生成器和辨別器進行更新?;诹鞯哪P蛣t直接對數(shù)據(jù)的概率進行學習,其使用的最主要的數(shù)學工具是一種強大的密度估計統(tǒng)計工具,歸一化流NF,歸一化流通過應(yīng)用一系列可逆的轉(zhuǎn)換函數(shù)、將簡單分布轉(zhuǎn)換為復(fù)雜分布,基于該數(shù)學工具,模型能夠直接使用負對數(shù)似然函數(shù)對參數(shù)進行更新。擴散模型則是一種基于最大似然的生成模型,去噪擴散概率模型DDPM是其最典型、且被廣泛使用的代表,擴散模型目前已經(jīng)成為生成領(lǐng)域許多任務(wù)的最優(yōu)結(jié)果,在眾多領(lǐng)域得到應(yīng)用,包括文本-圖像生成、圖像編輯、語音合成、醫(yī)學成像、視頻生成和對抗性學習等等。
現(xiàn)有的生成模型都是以數(shù)據(jù)的標簽均勻分布為假設(shè)來訓練的,然而,在現(xiàn)實世界中,數(shù)據(jù)的分布往往是非常偏斜的。特別是對于許多特定領(lǐng)域的生成任務(wù),如醫(yī)學圖像、分類學的細粒度數(shù)據(jù)集和從網(wǎng)絡(luò)上抓取的數(shù)據(jù),很難為每個類別平等地收集大量的數(shù)據(jù),有時頭部和尾部類別的訓練集的大小可能相差一百倍甚至更多,其中頭部類別是指含有較多訓練樣本的類別,以及尾部類別是指含有較少訓練樣本的類別。由于分布嚴重不均勻的分布稱為長尾分布,類別不均衡問題也被稱為長尾問題。類別不均衡的問題在實際應(yīng)用中非常常見,例如異常檢測、自然界物種的不均衡分布、以及稀有病理數(shù)據(jù)的分析等等。在這類情況下,深度學習模型的性能往往被頭部類所主導(dǎo),對尾部類的學習則嚴重匱乏。不均衡學習的目標是從不均衡的數(shù)據(jù)中學習一個無偏的模型。依據(jù)應(yīng)用場景,不均衡學習的研究可以涵蓋分類模型、生成模型等諸多領(lǐng)域。在涉及分類任務(wù)的領(lǐng)域中,專門研究不均衡學習現(xiàn)象的技術(shù)被定義為長尾識別任務(wù)。該領(lǐng)域的研究可被劃分為三種范式,包括類再平衡、信息增強和模塊改進等方案。在類再平衡方法中,重采樣方法通過調(diào)整不同類的樣本抽樣概率來實現(xiàn)類的再平衡,損失敏感學習根據(jù)不同的類來調(diào)整樣本對應(yīng)的損失權(quán)重,對數(shù)調(diào)整方法根據(jù)理論推導(dǎo),直接改變模型輸出值;信息增強中包括遷移學習和數(shù)據(jù)增廣,遷移學習尋求將信息從源領(lǐng)域轉(zhuǎn)移到目標領(lǐng)域,包括頭尾知識遷移、模型預(yù)訓練方法等,數(shù)據(jù)增廣則是一種通用的防止過擬合的技巧;模塊改進方法對分類器進行了調(diào)整,調(diào)整方式包括但不限于表征學習、分類器模塊設(shè)計等。
但是在涉及生成模型的領(lǐng)域中,類別不均衡問題則存在較大的研究空缺。現(xiàn)有的生成模型領(lǐng)域中,類別不均衡問題的解決方案主要包括類別重平衡的生成對抗網(wǎng)絡(luò)CBGAN以及群譜正則器,其均基于生成對抗網(wǎng)絡(luò)設(shè)計。其中類別重平衡的生成對抗網(wǎng)絡(luò)基于神經(jīng)網(wǎng)絡(luò)中觀察到的指數(shù)遺忘現(xiàn)象,采用了重采樣的方法引入一個新的、具備理論動機的類平衡正則器,從而鼓勵模型關(guān)注代表性不足的尾部類別,但其性能有限。而群譜正則器則針對生成對抗網(wǎng)絡(luò)的特定網(wǎng)絡(luò)架構(gòu)進行了調(diào)整,但是這也使得其無法被遷移到除了生成對抗網(wǎng)絡(luò)其他模型中。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中的部分或全部問題,以在類別不均衡的情況下提升擴散模型的性能,本發(fā)明第一方面提供一種擴散模型的優(yōu)化方法,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海人工智能創(chuàng)新中心;上海交通大學,未經(jīng)上海人工智能創(chuàng)新中心;上海交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310475194.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





