[發明專利]基于跨模態注意力卷積神經網絡的課程領域多模態文檔分類方法有效
| 申請號: | 202010791032.3 | 申請日: | 2020-08-07 |
| 公開(公告)號: | CN111985369B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 宋凌云;俞夢真;尚學群;李建鰲;彭楊柳;李偉;李戰懷 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 劉新瓊 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 跨模態 注意力 卷積 神經網絡 課程 領域 多模態 文檔 分類 方法 | ||
本發明涉及一種基于跨模態注意力卷積神經網絡的課程領域多模態文檔分類方法,對課程領域的多模態文檔數據預處理;將注意力機制和稠密卷積網絡相結合,提出了基于跨模態注意力的卷積神經網絡,能更為有效的構建到具有稀疏性的圖像特征;提出了面向文本特征構建的基于注意力機制的雙向長短期記憶網絡,可以高效構建與圖像語義局部關聯的文本特征;設計基于注意力機制的跨模態分組融合,能夠更為準確地學習到文檔中圖像和文本局部關聯關系,提高跨模態特征融合的準確率。在相同課程領域的數據集下,相比現有的多模態文檔分類模型,該方法具有更好的性能,提高了多模態文檔數據分類的準確率。
技術領域
本發明屬于計算機應用領域、多模態數據分類、教育數據分類、圖像處理、文本處理、特別涉及一種基于跨模態注意力卷積神經網絡的課程領域多模態文檔分類方法。
背景技術
隨著科學技術的發展,計算機在各個領域所要處理的數據從單一的圖像,已經轉變成形式和內容更加豐富的圖像,文本,音頻等多模態數據。多模態文檔的分類在視頻分類,視覺問答,社交網絡的實體匹配等方面都有應用。多模態文檔分類的準確性取決于,計算機是否能準確地理解文檔內所蘊含圖像和文本的語義和內容。然而,課程領域的圖文混合多模態文檔中的圖像一般由線條和字符構成,在顏色和紋理等視覺特征上表現出較高的稀疏特性;多模態文檔中的文本和圖像的語義之間表現出局部關聯的特點,這使得現有的多模態文檔分類模型難以準確地構建出文檔中圖像和文本的語義特征向量,從而降低了多模態文檔特征表達的準確性,阻礙了它們在多模態文檔分類任務上的性能。
為了解決以上問題,本發明擴展了模型體系結構,提出了一種基于跨模態注意力卷積神經網絡的課程領域多模態文檔分類方法。這種方法可以很好的提取到課程領域中的稀疏圖像特征,高效構建與圖像語義局部細粒度語義關聯的文本特征,能夠更加準確地學習和特定對象相關的圖像和文本特征之間關聯關系,從而提高多模態文檔分類的性能。
發明內容
要解決的技術問題
課程領域的圖文混合多模態文檔數據中的圖像視覺特征稀疏、文本和圖像之間僅存在局部語義關聯,這使得現有多模態文檔分類模型很難準確地理解文檔內文本和圖像的語義和內容,這也極大影響了多模態分類的性能。針對上述問題,本發明提出一種基于跨模態注意力卷積神經網絡的課程領域多模態文檔分類方法,該方法能夠更為高效的學習到具有特征稀疏性的課程領域圖像的語義特征,并且能夠更好的捕獲到多模態文檔中圖像和文本之間的局部細粒度語義關聯,準確表達多模態文檔特征的同時,提高了計算機在課程領域多模態文檔數據分類的性能。
技術方案
一種基于跨模態注意力卷積神經網絡的課程領域多模態文檔分類方法,其特征在于步驟如下:
步驟1:多模態文檔數據的預處理
步驟1.1:每個多模態文檔包含一張圖像和一段文本描述,并附帶多個語義標簽;利用文檔中的文本描述和文檔標簽集合構建詞典;將出現頻次小于13的標簽刪除,當多模態文檔的語義標簽數目為0時將該文檔刪除;
步驟1.2:數據預處理,對于圖像數據隨機裁剪成長寬為224*224的大小,并進行隨機水平翻轉;對于文本描述,將所有的文本長度截斷和補齊成長度l,并用詞向量模型學習文本中詞的向量表示;
步驟2:基于注意力機制的深度跨模態特征提取
步驟2.1:采用基于空間和特征注意力機制CBAM的稠密卷積神經網絡DenseNet進行圖像特征的表示構建,將得到的圖像特征記為m代表圖像的特征圖數;
步驟2.2:采用雙向長短期記憶網絡BiLSTM和文本注意力機制構建文本特征,其中文本注意力機制由兩個卷積層和一個softmax分類器構成;將計算得到的權重記為加權后得文本特征表示記為n=4*hidden_size,hidden_size為BiLSTM隱狀態的特征維度;
步驟3:基于注意力機制的分組跨模態融合
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010791032.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:球墨鑄鐵管預熱設備
- 下一篇:一種基于神經網絡的干涉儀角度解算方法





