[發明專利]用于檢索視頻時間段的方法、系統和計算機系統有效
| 申請號: | 201980006115.2 | 申請日: | 2019-03-21 |
| 公開(公告)號: | CN111433784B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 蕭人豪;何朝文 | 申請(專利權)人: | OPPO廣東移動通信有限公司 |
| 主分類號: | G06F16/732 | 分類號: | G06F16/732;G06F16/783;G06N3/04;G06N3/08;G06V10/764;G06V10/82;G06V20/40 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強 |
| 地址: | 523860 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 檢索 視頻 時間段 方法 系統 計算機系統 | ||
提供了一種用于檢索視頻時間段的方法和系統。在該方法中,分析視頻以獲得視頻的幀特征信息;幀特征信息被輸入到編碼器以輸出與視頻的時間信息相關的第一數據;將第一數據和用于檢索視頻的視頻時間段的檢索描述輸入解碼器以輸出第二數據;根據第一數據和第二數據執行注意力計算訓練;根據注意力計算訓練確定視頻的與檢索描述對應的視頻時間段。
技術領域
本公開涉及機器學習,并且特別地,涉及用于檢索視頻時間段的方法、系統和計算機系統。
背景技術
利用自然語言對視頻中的瞬間或時刻(moment)進行定位是一個具有巨大商業潛力和應用前景的重要研究課題,如視頻檢索、視頻摘要、視頻描述和問答等。然而,大多數現有的系統都是用自然語言檢索整個視頻片段,自然語言決定了視頻中發生了什么,而不是何時發生。之前的一些工作試圖提出“瞬間”檢索系統,但是,由于視頻數據集必須包含大量成對的局部視頻片段和引用表達式,或者包含唯一標識對應瞬間的文本描述信息,具有稀缺性和不可用性,因此上述“瞬間”檢索系統只能達到非常有限的精度。
大多數現有系統的目標是通過自然語言搜索來檢索特定的視頻(而不是視頻中的某個瞬間或時刻)。自然語言視頻檢索方法的目的是用自然語言搜索來檢索特定視頻。目前的方法采用了類似于傳統圖像語言嵌入的深視頻語言嵌入。對于這種全視頻檢索,可以參考[1]M.Otani,Y.Nakashima,E.Rahtu,J.Heikkila,and N.Yokoya.“Learning jointrepresentations of videos and sentences with web image search,”In ECCVWorkshops,2016;[2]A.Torabi,N.Tandon,and L.Sigal.“Learning languagevisualembedding for movie understanding with naturallanguage,”arXiv preprint arXiv:1609.08124,2016;[3]R.Xu,C.Xiong,W.Chen,and J.J.Corso.“Jointly modeling deepvideo and compositional text to bridge vision and language in a unifiedframework,”in AAAI,2015。然而,此類方法無法實現片段級的視頻檢索。
以前的一些工作利用了時間動作提名(temporal action proposals,也稱為時序動作提名)來進行有效的動作檢測。該時間動作提名標識了將在第二階段由動作分類器獨立分類的相關時間窗。然而,此類方法只能預測視頻中的潛在事件提名,但無法幫助檢索任務。對于這種時間動作提名,參考[4]Buch et al.,SST:“Single-Stream Temporal ActionProposals,”CVPR 2017,[5]Escorcia et al.,DAPs:“Deep Action Proposals forAction Understanding,”ECCV 2016。
還有少量的前期工作(例如,參考[6]Hendricks et al.,“Localizing Momentsin Video with Natural Language,”arXiv preprint 2017)研究了基于成對的時間-描述數據集來檢索視頻中的時間段,然而,這種成對的數據集需要大量人工并且難以在實踐中獲得。
發明內容
根據本公開描述的主題的一個創新方面,提供了一種用于檢索視頻時間段的方法。該方法可以包括:分析視頻以獲得視頻的幀特征信息,將幀特征信息輸入編碼器以輸出與視頻的時間信息有關的第一數據,將第一數據和用于檢索視頻的視頻時間段的檢索描述輸入解碼器以輸出第二數據,根據第一數據和第二數據執行注意力計算訓練,并且根據注意力計算訓練確定視頻的與檢索描述對應的視頻時間段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于OPPO廣東移動通信有限公司,未經OPPO廣東移動通信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980006115.2/2.html,轉載請聲明來源鉆瓜專利網。





