[發明專利]訓練方法、裝置、電子設備以及計算機可讀存儲介質在審
| 申請號: | 202010763380.X | 申請日: | 2020-07-31 |
| 公開(公告)號: | CN112307883A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 潘瀅煒;姚霆;梅濤 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 孫玉;王莉莉 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 方法 裝置 電子設備 以及 計算機 可讀 存儲 介質 | ||
本公開涉及一種訓練方法、裝置、電子設備以及計算機可讀存儲介質,涉及計算機技術領域。本公開的方法包括:針對每個樣本視頻,選取該樣本視頻的多幀圖像,并從多幀圖像分別提取圖像塊,將提取的圖像塊中的一個圖像塊作為查詢圖像塊;將各個圖像塊輸入視覺特征提取模型,得到各個圖像塊對應的編碼,其中,查詢圖像塊對應的編碼作為查詢編碼;根據各個樣本視頻的查詢編碼與同一樣本視頻中其他圖像塊對應的編碼之間的相似度,以及各個樣本視頻的查詢編碼與不同樣本視頻中圖像塊對應的編碼之間的相似度,確定第一對比損失函數,根據視覺特征提取模型的損失函數調整視覺特征提取模型的參數,其中,視覺特征提取模型的損失函數包括第一對比損失函數。
技術領域
本公開涉及計算機技術領域,特別涉及一種訓練方法、裝置、電子設備以及計算機可讀存儲介質。
背景技術
近年來,人工智能技術迅速發展。計算機視覺是人工智能領域的一個重要分支,目前已經取得了一定成果。計算機視覺包括計算機對于圖像、視頻等的理解和處理。其中,視頻的理解和處理復雜度更高一些。
視頻的理解中提取視頻的視覺特征是非常關鍵的部分,視覺特征提取的準確性直接關系視頻的理解以及下游任務(例如,動作識別、對象跟蹤)的結果的準確性。視覺特征的提取可以采用深度學習方法。深度學習包括有監督學習、無監督學習等。目前,監督學習已取得重大進展,并且在視頻的視覺特征學習中占主導地位。
發明內容
發明人發現:有監督學習的結果在很大程度上取決于需要大量的專業標注來訓練深度神經網絡。標注的過程是復雜繁瑣的。此外,針對非常具體的任務進行有監督的學習,得到的視覺特征提取模型難以適用于其他任務,存在泛化問題。
本公開所要解決的一個技術問題是:提出一種新的無監督的視覺特征提取模型的訓練方法。
根據本公開的一些實施例,提供的一種訓練方法,包括:針對每個樣本視頻,選取該樣本視頻的多幀圖像,并從多幀圖像分別提取圖像塊,將提取的圖像塊中的一個圖像塊作為查詢圖像塊;將各個圖像塊輸入視覺特征提取模型,得到各個圖像塊對應的編碼,其中,查詢圖像塊對應的編碼作為查詢編碼;根據各個樣本視頻的查詢編碼與同一樣本視頻中其他圖像塊對應的編碼之間的相似度,以及各個樣本視頻的查詢編碼與不同樣本視頻中圖像塊對應的編碼之間的相似度,確定第一對比損失函數,其中,查詢編碼與同一樣本視頻中其他圖像塊對應的編碼之間的相似度越高,查詢編碼與不同樣本視頻中圖像塊對應的編碼之間的相似度越低,第一對比函數的值越小;根據視覺特征提取模型的損失函數調整視覺特征提取模型的參數,對視覺特征提取模型進行訓練,其中,視覺特征提取模型的損失函數包括第一對比損失函數。
在一些實施例中,查詢圖像塊所在的幀作為錨定幀,提取的圖像塊中還包括從錨定幀中提取的與查詢圖像塊不同的另一圖像塊,作為第一鍵值圖像塊,方法還包括:根據各個樣本視頻的查詢編碼與第一鍵值圖像塊對應的編碼之間的相似度,以及查詢編碼與同一樣本視頻中其他幀提取的圖像塊對應的編碼之間的相似度,確定第二對比損失函數,其中,查詢編碼與第一鍵值圖像塊對應的編碼之間的相似度越高,查詢編碼與同一樣本視頻中其他幀提取的圖像塊對應的編碼之間的相似度越低,第二對比損失函數的值越小;其中,視覺特征提取模型的損失函數還包括第二對比損失函數。
在一些實施例中,查詢圖像塊所在的幀作為錨定幀,錨定幀為多幀圖像中按時間順序排列的第一幀或最后一幀,方法還包括:針對每個樣本視頻,按照預設順序將查詢編碼與同一樣本視頻中其他幀提取的圖像塊對應的編碼組合成序列編碼;將序列編碼輸入分類模型,得到查詢圖像塊與同一樣本視頻中其他幀提取的圖像塊在該樣本視頻中的預測時間順序;根據各個樣本視頻對應的預測時間順序,以及查詢圖像塊與同一樣本視頻中其他幀提取的圖像塊在該樣本視頻中真實時間順序,確定第三損失函數;其中,視覺特征提取模型的損失函數還包括第三對比損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010763380.X/2.html,轉載請聲明來源鉆瓜專利網。





