[發明專利]一種基于反思網絡的教學場景視頻描述生成方法在審
| 申請號: | 202011483140.0 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112528883A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 于長斌;段晨瑞;朱銘健;孫曉彤;靳偉;于鳳敏 | 申請(專利權)人: | 杭州義順科技有限公司;南京眾智未來人工智能研究院有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08;G06F40/126;G06F40/151 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 周紅芳 |
| 地址: | 310026 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 反思 網絡 教學 場景 視頻 描述 生成 方法 | ||
1.一種基于反思網絡的教學場景視頻描述生成方法,其特征在于,包括如下步驟:
步驟1)視頻圖像預處理階段:對視頻抽取指定個數的圖像幀,并對圖像做顏色、尺寸變換的預處理;
步驟2)圖像特征抽取階段:使用預訓練卷積神經網絡抽取圖像幀特征并保存;
步驟3)數據集標注預處理階段:提出一個包含教學場景視頻的新數據集,每個視頻對應一條手工標注的語句,用來描述師生課堂的互動情況;根據已標注的所有文本建立詞匯表;最后將所有由人類語言標注的句子根據詞匯表中的對應關系轉成數字序號序列;
步驟4)圖像特征編碼階段:使用門控循環單元網絡(GRU),對于步驟2)中已保存的圖像幀特征進行編碼,得到視覺表征序列;
步驟5)文本解碼階段:使用兩階段反思解碼器,第一階段解碼器用于解碼生成原始語句序列,第二階段解碼器通過反思的過程打磨和潤色原始語句;兩個解碼器將步驟4)得到的視覺表征序列解碼為數字序號序列;然后根據詞匯表中單詞與數字的對應關系將數字序號序列轉為文本句子。
2.根據權利要求1所述的一種基于反思網絡的教學場景視頻描述生成方法,其特征在于,所述步驟1)中一個視頻等間隔抽取的幀數為10幀,每一幀經過尺寸變化后,轉變為通道數為3,高、寬均為224像素的圖片;再把每一幀的RGB三個通道分別減去0.485,0.456,0.406然后分別除以0.229,0.224,0.225以完成顏色變換;每次抽一個視頻的圖像幀進行上述處理后保存到電腦內存中,然后執行步驟2);當下一個視頻到來時,再次執行步驟1)和步驟2)。
3.根據權利要求1所述的一種基于反思網絡的教學場景視頻描述生成方法,其特征在于,所述步驟2)中所采用的預訓練卷積神經網絡CNN模型可采用AlexNet,VGG或ResNet模型對步驟1)中已抽取的圖像幀進行特征抽取,然后以張量的形式存儲到硬盤中,其形式為(視頻個數,每個視頻抽取的幀數,每個視頻的特征),然后將生成的特征向量輸入到步驟4)中作為編碼器的輸入部分。
4.根據權利要求1所述的一種基于反思網絡的教學場景視頻描述生成方法,其特征在于,所述步驟3)中將視頻數據集劃分為訓練集,驗證集和測試集,其個數比例為4:1:1;使用NLTK工具將標注的文本進行單詞劃分,然后略去出現次數小于3的單詞,并將每一個單詞標好序,加入詞匯表中;將每一個視頻對應的標注句子根據詞匯表中的對應關系轉換為序號序列;如果句子長度超過10詞,那么截取前10詞;如果長度少于10詞,那么就用pad補充;在訓練階段,為識別處理不同長度的句子,在句子開頭加入BOS,句子最后加入EOS符號作為結束標志;在測試階段,在解碼器解碼的第一個時間步時,輸入BOS作為起始信號,不斷生成下一個單詞,直至遇到EOS結束標志。
5.根據權利要求1所述的一種基于反思網絡的教學場景視頻描述生成方法,其特征在于,所述步驟4)中采用門控循環單元網絡GRU對步驟2)中已抽取的視覺特征進行編碼;在每個時間步輸入視覺特征并生成表達;門控循環單元網絡的隱狀態表達長度為1024;在訓練階段初始學習率為3e-4,采用Adam優化器進行訓練。
6.根據權利要求1所述的一種基于反思網絡的教學場景視頻描述生成方法,其特征在于,所述步驟5)中采用門控循環單元網絡GRU對步驟4)中已編碼的視覺特征進行文本解碼;此解碼器分為兩個階段,其中第一階段解碼器用于解碼生成原始語句序列,第二階段解碼器通過反思的過程對第一階段生成的原始語句進行打磨和潤色;由于第二階段反思解碼器具有第一階段解碼器生成的語句這一全局信息,因此它能通過從第一階段的原始語句中觀察未來的單詞而產生描述更加精細化的序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州義順科技有限公司;南京眾智未來人工智能研究院有限公司,未經杭州義順科技有限公司;南京眾智未來人工智能研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011483140.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能健身劃船機
- 下一篇:一種二丙酸咪唑苯脲無菌原料藥的制備方法





