[發明專利]媒體素材處理方法、裝置、設備、服務器及存儲介質有效
| 申請號: | 202010370079.2 | 申請日: | 2020-04-30 |
| 公開(公告)號: | CN111526405B | 公開(公告)日: | 2022-02-22 |
| 發明(設計)人: | 郭燧冰;廖凱恩;朱康峰;張倩;劉柏;范長杰;李仁杰;胡志鵬 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | H04N21/43 | 分類號: | H04N21/43;H04N21/8352;G06F16/48;G11B27/031 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 劉靜 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 媒體 素材 處理 方法 裝置 設備 服務器 存儲 介質 | ||
本申請提供一種媒體素材處理方法、裝置、設備、服務器及存儲介質,涉及數據處理技術領域。該方法包括:在待標注媒體素材播放的過程中,獲取通過預設標注界面輸入的針對待標注媒體素材的標注信息,其中,待標注媒體素材包含視頻軌道和音頻軌道;根據標注信息,對待標注媒體素材進行標注。本申請提供的方法,可在對待標注媒體素材的視頻軌道和音頻軌道的時間軸進行對齊后,對視頻軌道和音頻軌道進行標注,可保證對視頻軌道的標注信息與視頻內容的匹配性,以有效提高標注結果的準確性。通過對音頻軌道以及視頻軌道進行混合標注,相比現有技術,單獨對視頻標注或單獨對音頻標注,標注結果可靠性更高,基于標注結果實現虛擬人物渲染,渲染效果更好。
技術領域
本發明涉及數據處理技術領域,具體而言,涉及一種媒體素材處理方法、裝置、設備、服務器及存儲介質。
背景技術
人工智能技術通常需要大量經過人工標注的媒體素材對模型進行訓練。
現有技術中,通常是僅對視頻進行標注,不關注音頻,或者通過音頻標注對視頻進行輔助分析,或者僅僅對音頻進行標注,并沒有包含視頻的信息。
但是,單純的對視頻進行標注或者對音頻標注,當對視頻的標注或者對音頻的標注存在較大偏差時,將導致音視頻同步效果較差,音視頻匹配精確度較低。
發明內容
本發明的目的在于,針對上述現有技術中的不足,提供一種媒體素材處理方法、裝置、設備、服務器及存儲介質,以便于解決現有技術中存在的音視頻不同步,匹配效果較差的問題。
為實現上述目的,本申請實施例采用的技術方案如下:
第一方面,本申請實施例提供了一種媒體素材處理方法,所述方法包括:
在待標注媒體素材播放的過程中,獲取通過預設標注界面輸入的針對所述待標注媒體素材的標注信息,其中,所述待標注媒體素材包含視頻軌道和音頻軌道;
根據所述標注信息,對所述待標注媒體素材進行標注。
可選地,在對所述待標注媒體素材進行標注之前,所述方法包括:
將所述視頻軌道和所述音頻軌道的時間軸進行對齊,以獲得所述待標注媒體素材。
可選地,所述將所述視頻軌道和所述音頻軌道的時間軸進行對齊,包括:
獲取通過所述預設標注界面輸入的所述視頻軌道和所述音頻軌道的時間軸移動操作;
響應所述時間軸移動操作,對所述視頻軌道和所述視頻軌道的時間軸進行對齊。
可選地,所述將所述視頻軌道和所述音頻軌道的時間軸進行對齊,包括:
對所述音頻軌道和預設音頻軌道的時間軸進行對齊,所述預設音頻軌道為與所述視頻軌道的時間軸對齊的音頻軌道。
可選地,對所述音頻軌道和預設音頻軌道的時間軸進行對齊,包括:
檢測所述音頻軌道和所述預設音頻軌道中是否均具有語音數據;
若所述音頻軌道和所述預設音頻軌道中均有語音數據,則分別對所述音頻軌道和所述預設音頻軌道進行語音轉寫處理;
根據所述語音轉寫處理的結果,分別確定所述音頻軌道和所述預設音頻軌道中第一條語音的開始時間;
根據所述音頻軌道和所述預設音頻軌道中第一條語音的開始時間,對所述音頻軌道和所述預設音頻軌道的時間軸進行對齊。
可選地,所述對所述音頻軌道和預設音頻軌道的時間軸進行對齊,包括:
若所述音頻軌道和所述預設音頻軌道中不具有語音數據,則根據所述音頻軌道和所述預設音頻軌道對應波形的振幅,對所述音頻軌道和所述預設音頻軌道的時間軸進行對齊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010370079.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鉬基高溫合金的TLP焊接方法
- 下一篇:程序的升級方法、設備、系統和介質





