[發明專利]一種視頻時序定位方法、裝置、存儲介質及電子設備在審
| 申請號: | 202210657459.3 | 申請日: | 2022-06-10 |
| 公開(公告)號: | CN115035449A | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 陳佳銘;馬林;羅偉鑫;張偉 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40 |
| 代理公司: | 北京曼威知識產權代理有限公司 11709 | 代理人: | 王宏財 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 時序 定位 方法 裝置 存儲 介質 電子設備 | ||
在本說明書提供的視頻時序定位方法中,會將獲取到的待定位視頻和目標文本輸入時序定位模型中,提取待定位視頻中每一視頻幀的圖像特征,同時,將待定位視頻劃分為若干視頻片段;根據視頻幀的圖像特征確定視頻片段的視頻特征,根據視頻特征確定各視頻片段與目標文本之間的相關值和劃分質量,再根據相關值和劃分質量確定視頻片段與目標文本之間的匹配值,最終根據匹配值確定出與目標文本匹配的視頻片段。采用本說明書提供的視頻時序定位方法時,視頻片段的視頻特征是由視頻片段中每一幀的圖像特征的序列組成的,在使用的過程中不會忽略視頻中的任何特征,避免了網絡在計算過程中丟失部分特征的情況,能夠為目標文本匹配到更準確的視頻片段。
技術領域
本說明書涉及計算機技術領域,尤其涉及一種視頻時序定位方法、裝置、存儲介質及電子設備。
背景技術
視頻時序定位是一種根據給定的文本,在給定的視頻中確定出視頻內容與這段文本所表達的內容相匹配的視頻片段的技術,在視頻直播、監控等場景中有著較為頻繁的應用。
現有技術在實現視頻時序定位時,通常會將視頻分割為若干視頻片段后,利用神經網絡提取每個視頻片段的視頻特征以及文本的文本特征,并利用提取出的特征計算文本與各視頻片段之間的匹配程度,最終將與文本的匹配程度最高的視頻片段作為定位到的視頻片段。
但由于神經網絡的特性,在處理視頻特征時通常會重點關注特征更豐富的部分,也就是視頻內容較為豐富、突出的部分;而相對應的,神經網絡會常常會忽略特征不明顯的部分,比如視頻內容較為平淡的部分或視頻片段的開頭和結尾部分等。換句話說,現有的視頻時序定位方法只能有效利用部分視頻特征,其對于視頻內容與文本的匹配結果的準確度仍有待提高。
發明內容
本說明書提供一種視頻時序定位方法、裝置、存儲介質及電子設備,以至少部分地解決現有技術存在的上述問題。
本說明書采用下述技術方案:
本說明書提供了一種視頻時序定位方法,包括:
獲取待定位視頻和目標文本;
將所述待定位視頻劃分為若干個視頻片段;并,將所述待定位視頻和所述目標文本輸入預先訓練的時序定位模型中,以通過所述時序定位模型確定所述待定位視頻中每一視頻幀的圖像特征,其中,一個視頻幀的圖像特征是根據該視頻幀和所述目標文本得到的;
針對每個視頻片段,將該視頻片段中包含的所有視頻幀的圖像特征的序列作為該視頻片段的視頻特征;
根據該視頻片段的視頻特征確定該視頻片段與所述目標文本之間的相關值,以及該視頻片段的劃分質量;
根據各視頻片段與所述目標文本之間的相關值以及各視頻片段的劃分質量確定各視頻片段與所述目標文本之間的匹配值;
根據各視頻片段與所述目標文本之間的匹配值確定與所述目標文本匹配的視頻片段。
可選的,將所述待定位視頻劃分為若干個視頻片段,具體包括:
遍歷各預設的窗口寬度和滑動步長的組合,采用下述方式將所述待定位視頻劃分為若干個視頻片段:
針對指定窗口寬度和指定滑動步長,采用指定窗口寬度的窗口在所述待定位視頻的時間軸上以所述指定滑動步長滑動,將每次滑動后窗口中包含的視頻作為一個視頻片段。
可選的,根據該視頻片段的視頻特征確定該視頻片段的劃分質量,具體包括:
根據該視頻片段的起始幀的圖像特征和結束幀的圖像特征,確定該視頻片段的起始幀和結束幀是所述待定位視頻的語義分割點的概率;
根據該視頻片段的起始幀和結束幀是語義分割點的概率,確定該視頻片段的劃分質量。
可選的,所述時序定位模型為多任務模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210657459.3/2.html,轉載請聲明來源鉆瓜專利網。





