[發(fā)明專利]一種基于深度度量學習的圖像情感分類與檢索算法有效
| 申請?zhí)枺?/td> | 201810173303.1 | 申請日: | 2018-03-02 |
| 公開(公告)號: | CN108427740B | 公開(公告)日: | 2022-02-18 |
| 發(fā)明(設(shè)計)人: | 楊巨峰;程明明;折棟宇;王愷 | 申請(專利權(quán))人: | 南開大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津耀達律師事務(wù)所 12223 | 代理人: | 張耀 |
| 地址: | 300500 天津*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 度量 學習 圖像 情感 分類 檢索 算法 | ||
本發(fā)明公開了一種基于深度度量學習的圖像情感分類與檢索方法,屬于圖像處理技術(shù)領(lǐng)域。該方法的目的是結(jié)合情感標簽間的相互關(guān)系進行圖像情感的分類及檢索。該方法設(shè)計了一種多任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),用于同時優(yōu)化分類及檢索兩個任務(wù)。這種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)利用基于多層卷積層的情感向量來作為圖像的紋理信息表達,用于區(qū)別不同圖像中的情感,并提出新型的情感約束考慮不同情感間的關(guān)系。最終將得到的模型用于圖像情感分類,得到的情感向量作為嵌入特征用于圖像情感檢索。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,特別涉及到一種基于深度度量學習的圖像情感分類與檢索的方法。
背景技術(shù)
伴隨多媒體技術(shù)的迅速發(fā)展,圖片、視頻等媒介已變成網(wǎng)絡(luò)社交文化中的一種主流,人們更多地利用多媒體內(nèi)容來表達自己的情感或觀念。圖像情感分析旨在使機器可以辨認甚至產(chǎn)生類似于人的情緒,是計算機視覺、模式識別等范疇的重要挑戰(zhàn)之一。與傳統(tǒng)物體分類不同,情感分類更為主觀也更具有挑戰(zhàn)性,一個主要原因是情感類別之間并非完全獨立,有著不同文化背景的人對同一幅圖像產(chǎn)生的感覺可能不盡相同。
傳統(tǒng)的情感分析方法提取低層人工特征用于情感分類,如顏色、紋理、線條等特征,或者利用名詞形容詞對探測器Sentibank提取圖像中的中層表征。近年來,卷積神經(jīng)網(wǎng)絡(luò)的運用在很多視覺任務(wù)中取得較好的效果,例如圖像分類、物體檢測、語義分割等。卷積神經(jīng)網(wǎng)絡(luò)具有很強的學習圖像高層次特征表征的能力,因此一些研究者開始使用卷積神經(jīng)網(wǎng)絡(luò)進行情感分類。如You Quanzeng等2016年在AAAI(308-314)發(fā)表的論文“Building alarge scale dataset for image emotion recognition:The fine print and thebenchmark”中在大規(guī)模情感數(shù)據(jù)集上微調(diào)AlexNet網(wǎng)絡(luò)。但是大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的方法都利用softmax損失函數(shù)優(yōu)化分類任務(wù),該函數(shù)只用于最大化正確類別的概率,而不能考慮到情感標簽間天然存在的關(guān)系,如屬于相同極性的情感(積極、消極)之間會比不同極性間更為相似。度量學習在過去幾十年被廣泛用于圖像處理當中,近來一些方法將卷積神經(jīng)網(wǎng)絡(luò)與三元約束結(jié)合用來學習嵌入特征能夠捕捉圖像中的語義相似度。這類深度度量學習方法也被成功運用在了很多領(lǐng)域當中,如人臉識別,圖像檢索等。Zhang xiaofan等2016年在CVPR(1114-1123)發(fā)表的論文“Embedding label structures for fine-grainedfeature representation”中協(xié)同訓練softmax及三元損失函數(shù)來獲取圖像語義特征,但利用全卷積特征并不能充分捕捉圖像中的情感信息,此外,細分類物體類別間的三元約束也不適用于為情感種類間的關(guān)系建模。
上述領(lǐng)域的一些最新成果激發(fā)了我們的靈感,也為我們開發(fā)基于分層特征選擇的高效分割方法提供了堅實的技術(shù)基礎(chǔ)。
發(fā)明內(nèi)容
本發(fā)明需要解決的技術(shù)問題是輸入一張任意大小的圖片,系統(tǒng)可以預(yù)測其所屬的情感種類,及用于檢索情感相近的圖像的嵌入特征。
為了實現(xiàn)本發(fā)明的目的,我們依靠以下技術(shù)方案來實現(xiàn):
a.將訓練樣本輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中,計算樣本的各層特征表示,并根據(jù)真實類別得到分類損失。
b.將卷積神經(jīng)網(wǎng)絡(luò)中的所有卷積層特征的gram矩陣結(jié)合到一起作為情感向量,實現(xiàn)多層次的紋理信息充分的結(jié)合。
c.利用情感約束建模情感標簽的混合關(guān)系,計算得到相似性損失,保證輸入樣本在特征空間中與所有相同類別的樣本距離比其他具有相同極性情感的樣本近,而距具有相反極性情感的樣本最遠。
d.結(jié)合分類損失及相似度損失為總損失,通過隨機梯度下降方法訓練整個卷積神經(jīng)網(wǎng)絡(luò)。
e.利用訓練好的卷積神經(jīng)網(wǎng)絡(luò)預(yù)測輸入圖像的情感類別,同時提取情感向量用于檢索相應(yīng)情感的圖片。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南開大學,未經(jīng)南開大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810173303.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





