[發(fā)明專利]一種基于多方面深度學習表達的圖像情感分類方法在審
| 申請?zhí)枺?/td> | 201710438419.9 | 申請日: | 2017-06-12 |
| 公開(公告)號: | CN107341506A | 公開(公告)日: | 2017-11-10 |
| 發(fā)明(設計)人: | 王偉凝;黃杰雄;李樂敏;趙明權 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46 |
| 代理公司: | 廣州市華學知識產(chǎn)權代理有限公司44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多方面 深度 學習 表達 圖像 情感 分類 方法 | ||
技術領域
本發(fā)明涉及圖像分類的技術領域,具體涉及一種基于多方面深度學習表達的圖像情感分類方法。
背景技術
人們?nèi)菀资艿揭曈X內(nèi)容尤其是圖像的刺激而產(chǎn)生各種情感。圖像情感分類,就是針對圖像所喚醒的人類情感對圖像進行分類。研究中常用的八類圖像情感分別為愉悅、敬畏、滿足、興奮、憤怒、厭惡、恐懼、悲傷共8類。由于圖像的復雜性和人類情感的主觀性,通過計算機模擬人類高層感知來判斷圖像情感,自動實現(xiàn)對圖像情感進行分類是一項非常具有挑戰(zhàn)性的任務。
傳統(tǒng)的圖像情感分類方法大多采用設計手工特征并構建圖像情感分類器的方式。研究者們根據(jù)藝術元素或者藝術原理,從圖像中提取多種圖像特征,如顏色特征、紋理特征、形狀特征等等。這些特征在早期的研究中都取得了較好的應用價值。但是,手工特征僅在小規(guī)模數(shù)據(jù)集上有效,一旦應用于大規(guī)模數(shù)據(jù)集上,就會顯示出提取特征耗時長和分類準確率低等缺點。
深度學習在解決傳統(tǒng)計算機視覺問題上有突破性進展,尤其是卷積神經(jīng)網(wǎng)絡(CNN)的應用。通過利用多層CNN直接對大量的數(shù)據(jù)進行監(jiān)督學習,網(wǎng)絡可以在不需要先驗知識和經(jīng)驗的情況下針對學習任務自動且有效地學習到圖像的特征。這種方法不僅省去了繁瑣的特征設計和提取的過程,更能在樣本中學習到更抽象更高層次的圖像特征,提高了特征的魯棒性。目前常用的CNN模型有AlexNet、VGG、ResNet等。利用深度學習進行圖像情感分類研究中,羅切斯特大學的學者You等人通過建立大規(guī)模圖像情感數(shù)據(jù)集,微調(diào)AlexNet來提取圖像的情感特征,然后使用支持向量機(SVM)進行圖像情感分類,取得了不錯的分類效果。
實際上,現(xiàn)有的深度學習將CNN應用于圖像情感分類,實則將網(wǎng)絡視為在全局視野中學習圖像的黑盒子,忽略了圖像中其他能夠喚醒情感的局部元素或者性質(zhì)。圖像信息、深度學習網(wǎng)絡和學習任務之間的關系很少被考慮到,這也成為了圖像情感分類的瓶頸。
因此需要一種新的圖像情感分類方法來克服現(xiàn)有技術存在的問題。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于克服現(xiàn)有技術的缺點與不足,提供一種基于多方面深度學習表達的圖像情感分類方法,能自動地對圖像情感進行分類。
為了達到上述目的,本發(fā)明采用以下技術方案:
本發(fā)明公開了一種基于多方面深度學習表達的圖像情感分類方法,包括如下步驟:
(1)圖像情感分類模型設計:包含一個并行卷積神經(jīng)網(wǎng)絡模型和一個支持向量機SVM分類器;
(2)并行卷積神經(jīng)網(wǎng)絡模型結(jié)構設計:包括5個結(jié)構相同的卷積神經(jīng)網(wǎng)絡,每個卷積神經(jīng)網(wǎng)絡包括五個卷積層組、一個全連接層和一個Softmax層的設計;
(3)圖像預處理:對原始圖像進行顯著主體提取、HSV格式轉(zhuǎn)換,對原始圖像和HSV格式圖像進行金字塔切割,共得到包含原始圖像在內(nèi)的5種形式的輸入圖像;
(4)訓練卷積神經(jīng)網(wǎng)絡模型:針對5種形式的輸入圖像,5個網(wǎng)絡分別對應一種輸入圖像,分別對每個網(wǎng)絡進行有監(jiān)督的訓練;
(5)融合多個卷積神經(jīng)網(wǎng)絡學習表達的圖像情感特征,訓練SVM分類器對多方面學習表達的圖像情感特征進行決策融合;
(6)對目標圖像使用已訓練好的卷積神經(jīng)網(wǎng)絡模型和SVM分類器實現(xiàn)對圖像的情感分類。
作為優(yōu)選的技術方案,步驟(1)中,所述并行卷積神經(jīng)網(wǎng)絡模型自動對輸入圖像進行多方面深度學習,并輸出學習到的圖像情感特征,SVM分類器將并行卷積神經(jīng)網(wǎng)絡模型學習得到的圖像情感特征做決策融合并輸出圖像的情感分類結(jié)果。
作為優(yōu)選的技術方案,步驟(2)中,所述并行卷積神經(jīng)網(wǎng)絡由5個結(jié)構相同的卷積神經(jīng)網(wǎng)絡組成,其中,單個卷積神經(jīng)網(wǎng)絡模型的設計方法如下:
(2-1)首先利用在大規(guī)模數(shù)據(jù)集上預訓練得到的最新網(wǎng)絡模型結(jié)構遷移到圖像情感分類網(wǎng)絡結(jié)構中,作為網(wǎng)絡模型中每個網(wǎng)絡的主體,選用網(wǎng)絡模型ResNet-50-layer,該網(wǎng)絡模型ResNet-50-layer使用大規(guī)模的數(shù)據(jù)集ImageNet預訓練得到的,并且引入殘差網(wǎng)絡結(jié)構;
(2-2)網(wǎng)絡遷移的部分為ResNet-50-layer的卷積層組;
(2-3)所述每個網(wǎng)絡的全連接層,根據(jù)圖像情感種類,將神經(jīng)元數(shù)量設為圖像情感類別數(shù)N;
(2-4)所述每個網(wǎng)絡的卷積層組的結(jié)構、參數(shù)及其初始權值均與ResNet-50-layer一致。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經(jīng)華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710438419.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





