[發(fā)明專利]一種視頻場景分割判斷方法、智能終端及存儲介質有效
| 申請?zhí)枺?/td> | 201711466018.0 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN109977738B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設計)人: | 陳銘良;吳佳飛;賴長明;徐永澤;楊福軍 | 申請(專利權)人: | 深圳TCL新技術有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/77;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 深圳市君勝知識產權代理事務所(普通合伙) 44268 | 代理人: | 王永文;劉文求 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 場景 分割 判斷 方法 智能 終端 存儲 介質 | ||
1.一種視頻場景分割判斷方法,其特征在于,所述視頻場景分割判斷方法包括:
采用深度學習網絡對兩個圖像從多個維度進行特征提取;
將提取到的所述特征進行級聯(lián),拼接形成一個固定長度的深度級聯(lián)特征向量;
判斷所述深度級聯(lián)特征向量的相似性,根據(jù)相似性的結果判斷是否出現(xiàn)視頻場景分割判斷;
所述采用深度學習網絡對兩個圖像從多個維度進行特征提取具體包括:
對于兩個圖像中的任意一圖像,通過所述圖像的灰度圖獲取灰度統(tǒng)計直方圖;
通過邊緣檢測算子獲取所述圖像的邊緣信息圖;
根據(jù)原圖像、邊緣信息圖和灰度統(tǒng)計直方圖,采用三個卷積神經網絡提取深度特征,輸出4096維、2048維和1024維的特征向量;
通過卷積神經網絡根據(jù)原圖像、邊緣信息圖和灰度統(tǒng)計直方圖提取特征向量前,預先完成卷積神經網絡訓練,所述訓練包括:
單獨訓練階段,將三個卷積神經網絡完全拆開獨立訓練提取特征,第一組訓練采用原圖用第一訓練模型提取特征,第二組訓練用邊緣信息圖和第二訓練模型提取特征,第三組訓練用灰度統(tǒng)計直方圖和第三訓練模型提取特征,三種訓練提取出來的特征分別通過自連接,和另一圖像提取的特征連接,全卷積和分類器進行分類,訓練出穩(wěn)定的第一訓練模型、第二訓練模型和第三訓練模型的參數(shù)來對特征進行提取;
兩兩配對訓練階段,將三個卷積神經網絡兩兩配對訓練提取特征,在單獨訓練階段得到的參數(shù)上進一步調整,控制結合兩個訓練模型提取的特征互相級聯(lián)拼接;
完整訓練階段,在默認訓練模型的參數(shù)穩(wěn)定的基礎上進行,將訓練模型的學習率調整到最小值,訓練目標為全卷積層的參數(shù),兩個圖像的三組特征向量拼接后全卷積輸出2048維度的向量,以及最后分類器分成兩類的參數(shù);
通過三個階段進行訓練,得到穩(wěn)定的深度級聯(lián)特征提取模型和基于深度級聯(lián)特征來判斷場景分割的分類器。
2.根據(jù)權利要求1所述的視頻場景分割判斷方法,其特征在于,所述將提取到的所述特征進行級聯(lián),拼接形成一個固定長度的深度級聯(lián)特征向量具體包括:
將提取到的4096維、2048維和1024維的三組級聯(lián)的特征向量進行拼接,輸出一個7168維的特征向量;
所述7168維的特征向量為一個固定長度的深度級聯(lián)特征向量。
3.根據(jù)權利要求2所述的視頻場景分割判斷方法,其特征在于,所述判斷所述深度級聯(lián)特征向量的相似性,根據(jù)相似性的結果進行視頻分割具體包括:
當?shù)玫絻蓚€圖像的7168維的特征向量后,將兩個圖像的7168維的特征向量進行拼接;
當拼接完成后,全卷積輸出最后的2048維的特征向量,通過分類器進行二分類判斷兩個圖像的相似性;
當結果為1時則兩個圖像為同一個場景,否則結果為0時則判斷出現(xiàn)視頻場景分割判斷。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳TCL新技術有限公司,未經深圳TCL新技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711466018.0/1.html,轉載請聲明來源鉆瓜專利網。





