[發明專利]一種視頻主題檢索的方法、系統、設備及存儲介質在審
| 申請號: | 202211277485.X | 申請日: | 2022-10-19 |
| 公開(公告)號: | CN115563342A | 公開(公告)日: | 2023-01-03 |
| 發明(設計)人: | 游強;李高翔;應鴻暉;卓采標;石易;林佳濤;王堅;余昊楠 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心廣東分中心;人民中科(北京)智能技術有限公司 |
| 主分類號: | G06F16/75 | 分類號: | G06F16/75;G06F16/783;G06F16/738 |
| 代理公司: | 北京銘本天律師事務所 11909 | 代理人: | 宋松 |
| 地址: | 510665 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 主題 檢索 方法 系統 設備 存儲 介質 | ||
1.一種視頻主題檢索的方法,其特征在于,包括下列步驟:
S1、預訓練跨模態視覺語言模型,并對所述跨模態視覺語言模型進行調整;
S2、對給定的樣例視頻集合的場景進行分割,并對分割后的各樣例視頻片段的主題進行聚類;
S3、基于所述調整后的跨模態視覺語言模型以及聚類的樣例視頻片段進行視頻主題檢索,并對檢索結果進行聚合和排序后輸出。
2.如權利要求1所述的視頻主題檢索的方法,其特征在于,步驟S1中包括:S11、構建所述跨模態視覺語言模型的子步驟:具體基于CLIP模型獲得描述文本與圖像相似度;以及增加針對主題文本的文本編碼器,用以將圖像與主題文本在特征空間進行對齊,獲得主題文本與圖像相似度;將所述的描述文本與圖像相似度與所述的主題文本與圖像相似度進行加權求和,得到聯合相似度。
3.如權利要求2所述的視頻主題檢索的方法,其特征在于,步驟S1中包括:S12、收集訓練數據的子步驟:具體是獲取若干圖像;從每一圖像的文本中提取信息,形成包括圖像、描述文本和主題文本的三元組;將各所述圖像調整為預設寬、高的調整后圖像,形成包括調整后圖像、描述文本和主題文本的調整后三元組;以所述的調整后三元組作為訓練數據,用于預訓練跨模態視覺語言模型。
4.如權利要求3所述的視頻主題檢索的方法,其特征在于,步驟S1中包括:S13、預訓練跨模態視覺語言模型的子步驟:具體是獲得所述訓練數據之后,在已構建的所述跨模態視覺語言模型上訓練每一個網絡結構的權重,其中輸入的是圖像、描述文本和主題文本三元組,按照模態的不同,合并為圖像文本對,其中描述文本和主題文本統一為文本模態,按照文本模態能否真實匹配圖像模態的內容和主題,真實標簽為相似或不相似,分別標記為1、0,使用的損失函數是對比損失;假設有不匹配的的圖像文本對和匹配的圖像文本對,分別輸入對應的編碼網絡提取特征得到特征對,當預測輸出標簽分別為0、1,這樣得到對比損失最小,基于梯度下降優化方法,最小化對比損失,訓練后就得到了編碼網絡的權重。
5.如權利要求4所述的視頻主題檢索的方法,其特征在于,步驟S1中包括:S14、收集檢索相關任務視頻,完成檢索任務調整的子步驟:
假定收集到檢索相關任務視頻的數量為M,則檢索相關任務視頻集合其中Qj依次為序號j的原始視頻、對視頻檢索的文本;
對各視頻解碼生成解碼圖像幀序列;
確定檢索文本為主題文本的概率為p,則相應的一般性描述文本的相似度為1-p;
假定是視頻的第k解碼圖像,對第k解碼圖像的所述調整后三元組進行相應編碼器的編碼并進行特征提取,得到對應的三個特征則聯合相似度記為:
其中,表示第k解碼圖像的圖像,表示第k解碼圖像的描述文本,表示第k解碼圖像的主題文本;
上述進行相應編碼器的編碼,具體是改變若干個編碼器中網絡的權重,使得當視頻與檢索文本不匹配時,通過訓練編碼器,使得聯合相似度趨向于0,而當視頻域檢索文本匹配時,所述的聯合相似度趨向于1,直到所述跨模態視覺語言模型收斂或者達到預設的迭代次數,以完成所述的檢索任務調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心廣東分中心;人民中科(北京)智能技術有限公司,未經國家計算機網絡與信息安全管理中心廣東分中心;人民中科(北京)智能技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211277485.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可變部署架構客制化平臺快速搭建的方法
- 下一篇:一種新型電池系統





