[發(fā)明專利]一種視頻主題檢索的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202211277485.X	申請日：	2022-10-19
公開（公告）號：	CN115563342A	公開（公告）日：	2023-01-03
發(fā)明（設(shè)計）人：	游強(qiáng);李高翔;應(yīng)鴻暉;卓采標(biāo);石易;林佳濤;王堅;余昊楠	申請（專利權(quán)）人：	國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心廣東分中心;人民中科（北京）智能技術(shù)有限公司
主分類號：	G06F16/75	分類號：	G06F16/75;G06F16/783;G06F16/738
代理公司：	北京銘本天律師事務(wù)所 11909	代理人：	宋松
地址：	510665 ***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種視頻主題檢索方法系統(tǒng) 設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種視頻主題檢索的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)，用以解決現(xiàn)有技術(shù)樣例視頻的相似度計算是在較低級別上進(jìn)行的問題。方法包括：S1、預(yù)訓(xùn)練跨模態(tài)視覺語言模型，并對所述跨模態(tài)視覺語言模型進(jìn)行調(diào)整；S2、對給定的樣例視頻集合的場景進(jìn)行分割，并對分割后的各樣例視頻片段的主題進(jìn)行聚類；S3、基于所述調(diào)整后的跨模態(tài)視覺語言模型以及聚類的樣例視頻片段進(jìn)行視頻主題檢索，并對檢索結(jié)果進(jìn)行聚合和排序后輸出。系統(tǒng)包括：預(yù)訓(xùn)練和調(diào)整模塊、分割和聚類模塊、輸出模塊。計算機(jī)設(shè)備包括：存儲器、處理器，以及計算機(jī)程序。包含計算機(jī)可執(zhí)行指令的存儲介質(zhì)用于執(zhí)行視頻主題檢索的方法。

技術(shù)領(lǐng)域

本發(fā)明涉及計算機(jī)機(jī)器視覺技術(shù)領(lǐng)域，特別涉及一種視頻主題檢索的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)。

背景技術(shù)

視頻主題檢索，屬于基于內(nèi)容的視頻檢索范疇，是指將給定查詢主題相同或相近的視頻檢索出來。目前實現(xiàn)視頻主題檢索的方法基本分為兩類：

第一類稱之為基于文本的檢索方案：

(1)基于視頻文本摘要的檢索方法。這種方法本質(zhì)上是通過文本檢索的方式來完成視頻主題檢索，其基本流程是，通過視頻的標(biāo)題或者介紹文本來完成視頻的檢索。如果需要使用文本檢索視頻，就需要大量已經(jīng)準(zhǔn)備好的視頻及其描述文本。這種方法存在的問題主要有兩個：一是網(wǎng)絡(luò)上大量的視頻是沒有描述文本的，這樣就沒有辦法檢索到；而是描述文本與視頻內(nèi)容可能存在不一致的情況，從而造成從文本側(cè)檢索的結(jié)果與視頻內(nèi)容不符的情況出現(xiàn)。

(2)視頻主題分類與查詢標(biāo)簽擴(kuò)展檢索的方法。這種方法是將相關(guān)的查詢映射到對應(yīng)的視頻主題類別中，然后將標(biāo)記為對應(yīng)類別主題的視頻檢索返回。由于基于分類的方法需要實現(xiàn)確定視頻主題的類別個數(shù)，比如檢索“美食”，有一類視頻剛好是美食類別。如果用戶檢索“美食”，可以直接返回美食那一類視頻。但是更多的時候用戶可能不是直接檢索“美食”，而是會檢索到“大盤雞”，這樣只能關(guān)聯(lián)到既有的“美食”類別，檢索結(jié)果缺乏精準(zhǔn)性。同時維護(hù)一套擴(kuò)展的標(biāo)簽映射關(guān)系，需要大量的知識工程，無法很好地滿足用戶查詢的多樣性需求。

第二類稱之為基于樣例視頻的檢索方案：

這類方法與第一類方法不同的是，是從視頻內(nèi)容直接進(jìn)行查詢操作。避免了使用文本進(jìn)行中間媒介而涉及的一系列語義鴻溝的問題。其基本方法是給定一批某一類特定主題的視頻樣例，然后根據(jù)這些視頻樣例種子檢索到更多同一主題的視頻集合。目前的方案都是基于視頻中圖像幀的相似度計算得到的。比如給定一個“用戶抽煙”的視頻，如果是同一個用戶同樣的場景一個抽煙一個不抽煙的相似度，就比不同用戶抽煙的相似度要高?；驹蚴悄壳盎趫D像的方案很多并沒有在較高層語義(比如主題)上進(jìn)行處理，造成基于樣例視頻的相似度計算還是在較低級別的場景(比如表觀)上進(jìn)行。如何讓相似度計算更多地關(guān)注到主題級別呢？這是當(dāng)前視頻主題檢索面臨的問題。

發(fā)明內(nèi)容

本發(fā)明提供了一種視頻主題檢索的方法、系統(tǒng)、設(shè)備及存儲介質(zhì)，用以解決現(xiàn)有技術(shù)樣例視頻的相似度計算是在較低級別上進(jìn)行的問題。

為達(dá)到上述目的，本發(fā)明提供以下技術(shù)方案：

第一部分，本發(fā)明實施例的一種視頻主題檢索的方法，包括下列步驟：S1、預(yù)訓(xùn)練跨模態(tài)視覺語言模型，并對所述跨模態(tài)視覺語言模型進(jìn)行調(diào)整；S2、對給定的樣例視頻集合的場景進(jìn)行分割，并對分割后的各樣例視頻片段的主題進(jìn)行聚類；S3、基于所述調(diào)整后的跨模態(tài)視覺語言模型以及聚類的樣例視頻片段進(jìn)行視頻主題檢索，并對檢索結(jié)果進(jìn)行聚合和排序后輸出。

優(yōu)選的，步驟S1中包括：S11、構(gòu)建所述跨模態(tài)視覺語言模型的子步驟：具體基于CLIP模型獲得描述文本與圖像相似度；以及增加針對主題文本的文本編碼器，用以將圖像與主題文本在特征空間進(jìn)行對齊，獲得主題文本與圖像相似度；將所述的描述文本與圖像相似度與所述的主題文本與圖像相似度進(jìn)行加權(quán)求和，得到聯(lián)合相似度。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心廣東分中心;人民中科（北京）智能技術(shù)有限公司，未經(jīng)國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心廣東分中心;人民中科（北京）智能技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202211277485.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。