[發明專利]視頻理解任務的模型訓練和執行方法、裝置、設備及介質在審
| 申請號: | 202110731643.3 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113360711A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 曲福;金志鵬;楊羿;陳曉冬;賀翔 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/78 | 分類號: | G06F16/78;G06F16/75;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京市通商律師事務所 11951 | 代理人: | 鞏靖 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 理解 任務 模型 訓練 執行 方法 裝置 設備 介質 | ||
本公開提供了一種視頻理解任務的模型訓練和執行方法、裝置、設備及介質,涉及人工智能領域,尤其涉及視頻理解的領域。具體實現方案為:從第一樣本視頻的多個評論中獲取評論關鍵信息;將第一樣本視頻、評論關鍵信息,分別輸入到度量學習模型中的視頻理解子模型、語義理解子模型;基于視頻理解子模型的輸出結果和語義理解子模型的輸出結果,對視頻理解子模型進行訓練;基于訓練好的視頻理解子模型、待執行任務對應的任務子模型,構造出視頻理解任務模型;獲取待執行任務對應的第一訓練數據,利用第一訓練數據對視頻理解任務模型進行訓練。該方法提升了訓練數據的獲取效率,并且可以確保視頻理解子模型可以較準確地對視頻的內容進行理解。
技術領域
本公開涉及人工智能領域,尤其涉及視頻理解的領域,可以應用在視頻分類、視頻搜索、視頻推薦和廣告匹配等場景中。
背景技術
視頻理解模型是一種能夠理解視頻內容的人工智能,在現有的針對視頻理解模型的訓練過程中,獲取訓練數據需要耗費大量的人工成本,而且,所獲取到的訓練數據所包含的信息通常較少,導致訓練數據中的信息較為片面,不利于提升視頻理解模型的。
發明內容
本公開提供了一種視頻理解任務的模型訓練和執行方法、裝置、設備及介質。
根據本公開的第一方面,提供了一種視頻理解任務模型的訓練方法,包括:
從第一樣本視頻的多個評論中獲取評論關鍵信息;
將第一樣本視頻、評論關鍵信息,分別輸入到度量學習模型中的視頻理解子模型、語義理解子模型;
基于視頻理解子模型的輸出結果和語義理解子模型的輸出結果,對視頻理解子模型進行訓練;
基于訓練好的視頻理解子模型、待執行任務對應的任務子模型,構造出視頻理解任務模型;
獲取待執行任務對應的第一訓練數據,利用第一訓練數據對視頻理解任務模型進行訓練。
根據本公開的第二方面,提供了一種針對視頻的任務執行方法,包括:
獲取待執行任務的任務數據,將任務數據輸入到根據權利要求1至7任一項訓練方法得到的視頻理解任務模型;
利用視頻理解任務模型輸出任務結果。
根據本公開的第三方面,提供了一種視頻理解任務模型的訓練裝置,包括:
評論信息獲取模塊,用于從第一樣本視頻的多個評論中獲取評論關鍵信息;
評論信息輸入模塊,用于將第一樣本視頻、評論關鍵信息,分別輸入到度量學習模型中的視頻理解子模型、語義理解子模型;
第一模型訓練模塊,用于基于視頻理解子模型的輸出結果和語義理解子模型的輸出結果,對視頻理解子模型進行訓練;
模型構造模塊,用于基于訓練好的視頻理解子模型、待執行任務對應的任務子模型,構造出視頻理解任務模型;
第二模型訓練模塊,用于獲取待執行任務對應的第一訓練數據,利用第一訓練數據對視頻理解任務模型進行訓練。
根據本公開的第四方面,提供了一種針對視頻的任務執行裝置,包括:
任務輸入模塊,用于獲取待執行任務的任務數據,將任務數據輸入到根據本公開的第一方面訓練方法得到的視頻理解任務模型;
任務執行模塊,用于利用視頻理解任務模型輸出任務結果。
根據本公開的第五方面,提供了一種電子設備,包括:
至少一個處理器;以及
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110731643.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種沙灘用自清潔景觀燈
- 下一篇:對焦馬達、攝像模組及電子設備





