[發明專利]一種基于點擊特征預測的圖像分類方法有效
| 申請號: | 201810199059.6 | 申請日: | 2018-03-12 |
| 公開(公告)號: | CN108647691B | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 譚敏;俞俊;張宏源 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 裴金華 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 點擊 特征 預測 圖像 分類 方法 | ||
本發明公開了一種基于點擊特征預測的圖像分類方法。本發明步驟如下:1、借助有文本點擊信息的圖像數據集;利用分詞技術及詞頻?逆向文件頻率算法構建每張圖片的文本點擊特征向量;2、在源點擊數據集下,以最小化點擊特征預測誤差為目標,構建帶位置約束的非線性詞嵌入模型,從而實現基于視覺特征的點擊特征預測,并利用融合的深度視覺與預測點擊特征對不含點擊信息的任一目標圖像集分類;3、構建多任務、跨模態遷移深度學習框架,在同時最小化分類與預測損失下,利用源點擊數據集、目標數據集訓練深度視覺與詞嵌入模型;4、通過反向傳播算法對步驟2中的網絡參數進行訓練,直至整個網絡模型收斂。本發明使得預測的點擊特征更為準確。
技術領域
本發明涉及細粒度圖像分類及點擊數據預測領域,尤其涉及基于點擊特征預測的圖像分類方法。
背景技術
細粒度視覺分類(Fine-Grained Visual Categorization,FGVC)是對視覺上非常相似的目標進行區分的過程,如鳥、狗、花的種類等,這些子類圖像在視覺上差距甚小。因此傳統的利用圖像視覺特征(如輪廓,顏色等)的分類方法無法取得令人滿意的效果,并存在較大的“語義鴻溝”。
為了解決語義鴻溝,研究者們嘗試引入帶有語義信息的圖像特征。用戶點擊特征便是其中之一,它是通過搜索引擎(如Google、百度、Bing等)上獲取的用戶點擊數據得到的。通過點擊數據,圖像可以被表征為查詢文本點擊次數向量,這種特征向量具有良好的表達語義能力。
盡管點擊數據具有豐富的語義信息,但目前大多數圖像分類數據集不包含點擊信息,且收集圖片的點擊數據需要大量的人工標注且不現實。為了解決這個問題,我們提出了點擊特征預測的方法,并利用融合的視覺與預測點擊特征進行圖像分類。
預測出的點擊數據具有一定的表達語義信息的能力,并降低了數據收集的難度和人工成本。將其與視覺特征相融合進行圖像分類,對促進細粒度圖像分類的效果具有一定的可行性和實用性,是值得研究的。此外,點擊數據作為目前科研的熱門方向,將其應用在圖像識別領域使得本發明具有一定的前沿性和創新性,直接從圖像本身預測點擊特征的方法也使得該發明有更強的現實性和普適性。
發明內容
本發明提供了一種基于點擊特征預測的圖像分類方法,該方法將點擊預測和圖像分類融合在一個統一的深度神經網絡中、完成了一個端到端的深度學習模型,該模型能同時完成點擊特征的預測及圖像的分類任務,在點擊特征預測方面,利用帶位置約束的損失函數使得預測出的點擊特征更加準確,在圖像分類任務方面,利用預測出的點擊特征改善分類效果,取得了比僅利用視覺特征分類的模型更好的效果
一種基于點擊特征預測的圖像分類方法,其步驟如下:
步驟(1)、借助有文本點擊信息的圖像數據集,即源點擊數據集;利用分詞技術及詞頻-逆向文件頻率算法構建每張圖片的文本點擊特征向量,所述的借助有文本點擊信息的圖像數據集,是指利用分詞技術及詞頻-逆向文件頻率算法構建每張圖片的文本點擊特征向量,具體如下:
步驟(1)中圖像的文本點擊信息是指每個圖片對應的一個M維點擊次數向量,其中M代表點擊數據中文本的個數;
步驟(1)中的特征向量構建的過程如下:
將M個文本解析為單詞,并選取點擊次數最多的前N個單詞作詞基,N≤M,利用tf-idf算法為每張圖片構建點擊特征;其中具體公式如下:
其中,ni,j是單詞i出現在文本j中出現次數,而∑ini,j是文本j中所有單詞出現次數的總和。D是文本集中的文本j出現的總數,Di是包含單詞i的文本數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810199059.6/2.html,轉載請聲明來源鉆瓜專利網。





