[發(fā)明專利]模型訓(xùn)練方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110577048.9 | 申請(qǐng)日: | 2021-05-26 |
| 公開(公告)號(hào): | CN113343803B | 公開(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計(jì))人: | 楊馥魁 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06V40/10 | 分類號(hào): | G06V40/10;G06V10/44;G06V10/764;G06N20/00 |
| 代理公司: | 北京鴻德海業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本公開提供了一種模型訓(xùn)練方法、裝置、設(shè)備和存儲(chǔ)介質(zhì),涉及人工智能技術(shù)領(lǐng)域,具體涉及計(jì)算機(jī)視覺、深度學(xué)習(xí)等技術(shù)領(lǐng)域。模型訓(xùn)練方法包括:采用多個(gè)已訓(xùn)練模型,提取圖像樣本的圖像特征,以獲得多個(gè)第一圖像特征;采用待訓(xùn)練模型,提取所述圖像樣本的圖像特征,以獲得第二圖像特征;基于所述多個(gè)第一圖像特征確定融合特征;基于所述融合特征和所述第二圖像特征構(gòu)建損失函數(shù),并采用所述損失函數(shù)訓(xùn)練所述待訓(xùn)練模型。本公開可以提高待訓(xùn)練模型的處理效果。
技術(shù)領(lǐng)域
本公開涉及人工智能技術(shù)領(lǐng)域,具體涉及計(jì)算機(jī)視覺、深度學(xué)習(xí)等技術(shù)領(lǐng)域,可應(yīng)用于圖像處理場(chǎng)景下,尤其涉及一種模型訓(xùn)練方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
知識(shí)蒸餾(knowledge?distillation)是模型壓縮的一種常用方法,不同于模型壓縮中的剪枝和量化,知識(shí)蒸餾是通過構(gòu)建一個(gè)輕量化的小模型,利用性能更好的大模型的監(jiān)督信息,來訓(xùn)練這個(gè)小模型,以期達(dá)到更好的性能和精度。這個(gè)大模型稱之為教師(teacher)模型,小模型稱之為學(xué)生(student)模型。來自teacher模型輸出的監(jiān)督信息稱之為知識(shí)(knowledge),而student模型學(xué)習(xí)遷移來自teacher模型的監(jiān)督信息的過程稱之為蒸餾(distillation)。
相關(guān)技術(shù)中,一般采用單一的教師模型為學(xué)生模型提供監(jiān)督信息。
發(fā)明內(nèi)容
本公開提供了一種圖像模型的訓(xùn)練方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)。
根據(jù)本公開的一方面,提供了一種模型訓(xùn)練方法,包括:采用多個(gè)已訓(xùn)練模型,提取圖像樣本的圖像特征,以獲得多個(gè)第一圖像特征;采用待訓(xùn)練模型,提取所述圖像樣本的圖像特征,以獲得第二圖像特征;基于所述多個(gè)第一圖像特征確定融合特征;基于所述融合特征和所述第二圖像特征構(gòu)建損失函數(shù),并采用所述損失函數(shù)訓(xùn)練所述待訓(xùn)練模型。
根據(jù)本公開的另一方面,提供了一種模型訓(xùn)練裝置,包括:得多個(gè)第一圖像特征;第二提取模塊,用于采用待訓(xùn)練模型,提取所述圖像樣本的圖像特征,以獲得第二圖像特征;融合模塊,用于基于所述多個(gè)第一圖像特征確定融合特征;訓(xùn)練模塊,用于基于所述融合特征和所述第二圖像特征構(gòu)建損失函數(shù),并采用所述損失函數(shù)訓(xùn)練所述待訓(xùn)練模型。
根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行如上述任一方面的任一項(xiàng)所述的方法。
根據(jù)本公開的另一方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)上述任一方面的任一項(xiàng)所述的方法。
根據(jù)本公開的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)上述任一方面的任一項(xiàng)所述的方法。
根據(jù)本公開的技術(shù)方案,可以提高待訓(xùn)練模型的處理效果。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構(gòu)成對(duì)本公開的限定。其中:
圖1是根據(jù)本公開第一實(shí)施例的示意圖;
圖2是根據(jù)本公開第二實(shí)施例的示意圖;
圖3是根據(jù)本公開第三實(shí)施例的示意圖;
圖4是根據(jù)本公開第四實(shí)施例的示意圖;
圖5是根據(jù)本公開第五實(shí)施例的示意圖;
圖6是用來實(shí)現(xiàn)本公開實(shí)施例的模型訓(xùn)練方法中任一方法的電子設(shè)備的示意圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110577048.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





