[發(fā)明專利]模型訓(xùn)練方法、人臉視頻生成方法、裝置、設(shè)備和介質(zhì)在審
| 申請?zhí)枺?/td> | 202110246125.2 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN112966607A | 公開(公告)日: | 2021-06-15 |
| 發(fā)明(設(shè)計)人: | 胡天舒;洪智濱 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 方法 視頻 生成 裝置 設(shè)備 介質(zhì) | ||
本申請公開了一種模型訓(xùn)練方法、人臉視頻生成方法、裝置、設(shè)備、介質(zhì)和程序產(chǎn)品,涉及人工智能領(lǐng)域,尤其涉及計算機視覺和深度學(xué)習(xí)技術(shù)。具體實現(xiàn)方案為:將用于訓(xùn)練主模型的輸入數(shù)據(jù)輸入所述主模型,得到所述主模型的輸出數(shù)據(jù);利用預(yù)先訓(xùn)練的專家模型,根據(jù)所述輸入數(shù)據(jù)和輸出數(shù)據(jù)計算初始損失值;利用所述專家模型,計算所述輸入數(shù)據(jù)及其對應(yīng)的訓(xùn)練標(biāo)注結(jié)果的匹配概率;將所述匹配概率與所述初始損失值進(jìn)行融合,得到目標(biāo)損失值,其中,所述目標(biāo)損失值用于對所述主模型進(jìn)行監(jiān)督訓(xùn)練。本申請通過動態(tài)調(diào)整損失值,不論專家模型的表現(xiàn)是否足夠好,都能提高模型訓(xùn)練的準(zhǔn)確性。
技術(shù)領(lǐng)域
本申請涉及人工智能領(lǐng)域,尤其涉及計算機視覺和深度學(xué)習(xí)技術(shù),具體涉及一種模型訓(xùn)練方法、人臉視頻生成方法、裝置、設(shè)備、介質(zhì)和程序產(chǎn)品。
背景技術(shù)
隨著理論和算力的發(fā)展,深度學(xué)習(xí)算法已經(jīng)成為了人工智能領(lǐng)域最為重要的技術(shù)。而在訓(xùn)練深度學(xué)習(xí)模型的過程中,損失函數(shù)起著至關(guān)重要的作用。一個好的損失函數(shù),往往需要能夠正確度量當(dāng)前模型的好壞,并指引模型在訓(xùn)練的過程中往有正向收益的方向去收斂。
現(xiàn)有技術(shù)中,一個常用的手段是用一個已經(jīng)訓(xùn)練好的模型作為“專家”去監(jiān)督另一個模型的訓(xùn)練,并把這個專家模型作為損失函數(shù)之一。這種方式在很多任務(wù)上都取得了很好的效果。然而,在有些數(shù)據(jù)集上,這些“專家”模型的表現(xiàn)本身就不是特別穩(wěn)定,因此無法通過計算得出正確的損失值,甚至最后計算出的損失值由于與真實數(shù)值差別較大,對模型的訓(xùn)練反而有害。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N模型訓(xùn)練方法、人臉視頻生成方法、裝置、設(shè)備、介質(zhì)和程序產(chǎn)品,以提高模型訓(xùn)練的準(zhǔn)確性。
第一方面,本申請?zhí)峁┝艘环N模型訓(xùn)練方法,包括:
將用于訓(xùn)練主模型的輸入數(shù)據(jù)輸入所述主模型,得到所述主模型的輸出數(shù)據(jù);
利用預(yù)先訓(xùn)練的專家模型,根據(jù)所述輸入數(shù)據(jù)和輸出數(shù)據(jù)計算初始損失值;
利用所述專家模型,計算所述輸入數(shù)據(jù)及其對應(yīng)的訓(xùn)練標(biāo)注結(jié)果的匹配概率;
將所述匹配概率與所述初始損失值進(jìn)行融合,得到目標(biāo)損失值,其中,所述目標(biāo)損失值用于對所述主模型進(jìn)行監(jiān)督訓(xùn)練。
第二方面,本申請還提供了一種基于語音驅(qū)動的人臉視頻生成方法,包括:
利用預(yù)先訓(xùn)練的語音驅(qū)動唇形模型,根據(jù)輸入的人臉圖像和語音數(shù)據(jù)輸出人臉唇形序列,其中,所述語音驅(qū)動唇形模型是按照如本申請任意實施例所述的模型訓(xùn)練方法訓(xùn)練得到;
基于所述人臉唇形序列,在所述人臉圖像上生成所述語音數(shù)據(jù)驅(qū)動的人臉視頻。
第三方面,本申請還提供了一種模型訓(xùn)練裝置,包括:
輸出數(shù)據(jù)確定模塊,用于將用于訓(xùn)練主模型的輸入數(shù)據(jù)輸入所述主模型,得到所述主模型的輸出數(shù)據(jù);
初始損失值確定模塊,用于利用預(yù)先訓(xùn)練的專家模型,根據(jù)所述輸入數(shù)據(jù)和輸出數(shù)據(jù)計算初始損失值;
匹配概率計算模塊,用于利用所述專家模型,計算所述輸入數(shù)據(jù)及其對應(yīng)的訓(xùn)練標(biāo)注結(jié)果的匹配概率;
目標(biāo)損失值確定模塊,用于將所述匹配概率與所述初始損失值進(jìn)行融合,得到目標(biāo)損失值,其中,所述目標(biāo)損失值用于對所述主模型進(jìn)行監(jiān)督訓(xùn)練。
第四方面,本申請還提供了一種基于語音驅(qū)動的人臉視頻生成裝置,包括:
人臉唇形序列確定模塊,用于利用預(yù)先訓(xùn)練好的語音驅(qū)動唇形模型,根據(jù)輸入的人臉圖像和語音數(shù)據(jù)得到人臉唇形序列,其中,所述語音驅(qū)動唇形模型是由如權(quán)利要求8-13中任一項所述的模型訓(xùn)練裝置訓(xùn)練得到;
人臉視頻生成模塊,用于基于所述人臉唇形序列,在所述人臉圖像上生成所述語音數(shù)據(jù)驅(qū)動的人臉視頻。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110246125.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





