[發明專利]一種基于遷移學習的短視頻語義標注方法有效
| 申請號: | 202110475530.1 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113177478B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 郭奕;代曉天;邱珂;黃永茂;江婉;周婷;卿朝進 | 申請(專利權)人: | 西華大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V30/262;G06V10/82 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 楊浩林 |
| 地址: | 610039 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遷移 學習 視頻 語義 標注 方法 | ||
本發明公開了一種基于遷移學習的短視頻語義標注方法,包括以下步驟:S1、提取短視頻的關鍵幀;S2、對關鍵幀進行區域檢測,得到語義區域圖像;S3、以圖像描述模型為基礎,對語義區域圖像進行語義標注。本發明通過關鍵幀提取技術將包含短視頻重要信息的幀提取出來,降低數據處理量,有效地提取了短視頻中的高價值語義信息,并對短視頻進行語義標注。
技術領域
本發明屬于圖像處理領域,具體涉及一種基于遷移學習的短視頻語義標注方法。
背景技術
隨著互聯網的發展和移動通信技術的進步,短視頻成為新的信息傳播載體。短視頻的用戶量和數據量十分龐大,龐大的視頻數據蘊藏著極大的商業價值,這使得國內外知名企業都涉足于短視頻應用。但是龐大的未經標記分類的視頻數據對于商業公司而言無法有效轉化為收益,對于政府來說無法對視頻內容進行有效監督。而當前大部分審核與標記需人工完成。將視頻內容自動標注技術應用于視頻內容審核和媒體資源管理系統中,將極大提高審核與標記效率。
目前對于短視頻的語義標注方法研究的技術方案和技術缺陷如下:
(1)傳統的視頻分析與標注方法主要依賴人工構建的特征進行匹配,往往將視頻簡單的分為幾類或十幾類,傳統方法對視頻的要求比較高,而短視頻內容與格式豐富多樣,且利用人工構建的特征效率很低,分類效率也無法應對海量數據財貿法與大數據時代接軌。
(2)不少研究者使用視頻描述模型,S2VT模型作為首個序列到序列的視頻描述模型,利用了視頻的時序信息提取視頻內容。MMVD模型基于S2VT模型,對多種視頻特征進行融合,然后生成語義標注。這些直接基于視頻進行描述的結果都是若干簡單的語義描述,效果不穩定,也缺乏更細節的描述,有待進一步的研究。
(3)而針對圖像的目標檢測和圖像描述研究進展較快,利用這些領域的研究內容,將提高語義標注的效果。但是傳統的目標檢測模型的檢測目標主要是圖像中的物體,且物體中的分類都是常見的物體,缺少對一些特定的物體的檢測能力,也缺乏對于背景區域的檢測能力。而短視頻的背景區域對于整個視頻的語義標注也非常重要,需要對其進行檢測。傳統的圖像描述模型主要針對整幅圖像的重點區域,對于圖像其余細節將忽略,但是這些細節也對視頻標注的豐富性和準確性有著較大貢獻,所以提取這些圖像細節將提高標注效果。
發明內容
針對現有技術中的上述不足,本發明提供的一種基于遷移學習的短視頻語義標注方法解決了現有技術中分類效率低、穩定性差以及檢測精度不夠的問題。
為了達到上述發明目的,本發明采用的技術方案為:一種基于遷移學習的短視頻語義標注方法,包括以下步驟:
S1、提取短視頻的關鍵幀;
S2、對關鍵幀進行區域檢測,得到語義區域圖像;
S3、以圖像描述模型為基礎,對語義區域圖像進行語義標注。
進一步地,所述步驟S1具體為:
S1.1、采用圖像處理庫PIL中Image模塊的open函數讀取短視頻的視頻幀;
S1.2、調用histogram函數獲取視頻幀的顏色直方圖;
S1.3、根據MPEG-4編碼標準,提取短視頻的所有I幀;
S1.4、將巴氏距離作為兩張圖片之間的相似度,計算每張I幀的顏色直方圖與下一張相鄰I幀的顏色直方圖之間的相似度;
S1.5、判斷相似度是否小于預先設定的閾值,若是,則當前幀為關鍵幀,否則當前幀不是關鍵幀;
S1.6、遍歷所有I幀,得到若干關鍵幀。
進一步地,所述步驟S2具體為:
S2.1、構建區域檢測模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西華大學,未經西華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110475530.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鉬鈦合金靶坯的制備方法
- 下一篇:一種出水角度可調的龍頭





