[發明專利]一種基于深度學習和概率圖模型的視頻描述生成方法有效
| 申請號: | 201710048375.9 | 申請日: | 2017-01-19 |
| 公開(公告)號: | CN106845411B | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 覃征;黃凱;王國龍;徐凱平;葉樹雄 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06F16/738 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 100084 北京市海淀區1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 概率 模型 視頻 描述 生成 方法 | ||
1.一種基于深度學習和概率圖模型的視頻描述生成方法,包括以下步驟:
利用現有的圖像數據集訓練快速區域對象識別卷積神經網絡模型;
利用現有的視頻數據集訓練動作識別卷積神經網絡模型;
對視頻進行抽幀處理,并分別使用快速區域對象識別卷積神經網絡模型和動作識別卷積神經網絡模型識別出視頻中的對象和動作;
通過使用條件隨機場找到最大概率的對象,動作,對象主謂賓三元組;
將主謂賓三元組輸入長短期記憶網絡進而輸出視頻的描述;
其特征在于,所述條件隨機場中,以三個節點y1,y2,y3分別表示主語、謂語和賓語,X表示生成的對象集和動作集,y1,y3取值于X中對象集Xobj,y2取值于X中的動作集Xact,該條件隨機場的能量為狀態能量與轉移能量之和,其定義為:
其中Ep是節點間的轉移能量,由轉移特征得到;Eu是節點的狀態能量,由狀態特征得到;
轉移特征為:
tj(y1,y2,X,1)=frequency(y1,y2)
tj(y2,y3,X,2)=frequency(y2,y3)
tj(y1,y3,X,3)=frequency(y1,y3)
其中frequency(y1,y2)表示在語料庫的所有句子中,名詞y1出現在動詞y2前面的頻率;frequency(y2,y3)表示在語料庫的所有句子中,動詞y2出現在名詞y3前面的頻率;frequency(y1,y3)表示在語料庫的所有句子中,名詞y1出現在名詞y3前面的頻率,yi在不滿足詞性條件時,frequency值均為0;
定義yi的狀態特征如下:
其中k是yi可能的取值的編號,score(k)表示從視頻中識別出的對象k或動作k的分數;
取以e為底的指數函數作為勢函數,將能量E(y1,y2,y3|X)作為勢函數的輸入,再進行規范化,得到該條件隨機場的條件概率,如下所示:
最佳三元組即為該式取得最大值時對應的y1,y2,y3,其中Z是規范化因子,是所有可能的標記序列的勢函數之和,i是狀態的序號,yi是第i個標記變量,j是轉移的序號,k是yi可能的取值的編號,λj是轉移特征tj的權值,μk是狀態特征sk的權值,λj參數和μk參數需要通過訓練得到。
2.根據權利要求1所述基于深度學習和概率圖模型的視頻描述生成方法,其特征在于,所述利用現有的圖像數據集訓練快速區域對象識別卷積神經網絡模型具體為:
利用現有的圖像數據集,構造圖像,對象集二元組,將所有二元組作為訓練集,訓練快速區域對象識別卷積神經網絡模型。
3.根據權利要求1所述基于深度學習和概率圖模型的視頻描述生成方法,其特征在于,所述利用現有的視頻數據集訓練動作識別卷積神經網絡模型具體為:
利用現有的動作數據集,構造視頻,動作二元組,將所有二元組作為訓練集,訓練動作識別神經網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710048375.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能化節能LED投光燈
- 下一篇:一種智能感應光控節能燈





