[發(fā)明專利]用于對圖像中的對象分類的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201580085497.4 | 申請日: | 2015-11-13 |
| 公開(公告)號: | CN108475339B | 公開(公告)日: | 2022-08-02 |
| 發(fā)明(設計)人: | 王曉剛;曾星宇;歐陽萬里 | 申請(專利權)人: | 北京市商湯科技開發(fā)有限公司 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/82;G06V10/44;G06N3/04;G06N3/08 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;王艷春 |
| 地址: | 100084 北京市海淀區(qū)中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 圖像 中的 對象 分類 方法 系統(tǒng) | ||
公開了一種用于對圖像中的對象分類的方法,包括:獲得每個所述圖像的至少一個候選限界框,其中每個候選限界框含有待分類的一個對象;從每個所述候選限界框提取外觀特征;基于所提取的外觀特征計算每個候選框的n?分類得分;以及將每個候選限界框中的對象分類為n個類別中的一個類別,其中n是大于1的整數(shù)。
技術領域
本公開涉及一種用于對圖像中的對象分類的方法和系統(tǒng)。
背景技術
對象檢測的目標是在數(shù)字圖像和視頻中檢測特定類別的對象實例。對象檢測系統(tǒng)的性能很大程度上取決于圖像表示(representation),圖像表示的質量可受例如視點、照明、位姿和遮擋的許多種類的變化影響。由于這類不可控制的因素的存在,設計充分可辨別以表示大量對象類別的穩(wěn)健圖像表示很重要。
大量工作一直專注于設計手工(hand-drafted)特征。通常,基于手工特征的對象檢測涉及:對多級大小(multiple scales)的圖像上的關鍵位置(landmarks)提取多個特征,然后將提取的多個特征連結為高維度特征向量。
已應用深度卷積神經(jīng)網(wǎng)絡(CNN)直接從原始像素學習特征。對于對象檢測任務,現(xiàn)有的深度CNN學習方法通過使用沒有真值(ground truth)限界框的圖像預訓練CNN,隨后使用具有限界框真值的另一圖像集合微調該深度神經(jīng)網(wǎng)絡。通常,用于微調的圖像集合與用于預訓練的圖像集合相比具有較少的語義類別數(shù)目。此外,用于微調的圖像集合中的語義類別數(shù)目等于待檢測的實際類別數(shù)目。
發(fā)明內容
下面將簡要概述本公開的內容,以提供對本公開的一些方面的基本理解。此概述并非本公開內容的詳盡綜述。這些概述內容既不是用來指出本公開的重要或關鍵要素,也并不是用來界定本公開的具體實施方式的任何范圍,或權利要求書的任何范圍。其唯一目的是以簡化形式呈現(xiàn)本公開的一些概念,作為后文詳細描述的序言。
在一方面中公開了一種對圖像中的對象分類的方法,包括:獲得圖像中的每個圖像的至少一個候選限界框,其中每個候選限界框含有待分類的一個對象;從每個候選限界框提取外觀特征;基于所提取的外觀特征計算每個候選框的n-分類得分;以及將每個候選限界框中的對象分類為n個類別中的一個類別,其中n是大于1的整數(shù)。
在本申請的另一方面中公開了一種用于對圖像中的對象分類的系統(tǒng),包括:用于獲得圖像中的每個圖像的至少一個候選限界框的裝置,其中每個候選限界框含有待分類的一個對象;用于從每個候選限界框提取外觀特征的裝置;用于基于所提取的外觀特征計算每個候選框的n-分類得分的裝置;以及用于將每個候選限界框中的對象分類為n個類別中的一個類別的裝置,其中n是大于1的整數(shù)。
在本申請的另一方面中還公開了一種用于對圖像中的對象分類的系統(tǒng),包括:存儲器,其存儲可執(zhí)行組件;以及處理器,其執(zhí)行可執(zhí)行組件以執(zhí)行系統(tǒng)的操作,所述操作包括:獲得圖像中的每個圖像的至少一個候選限界框,其中每個候選限界框含有待分類的一個對象;從每個候選限界框提取外觀特征;基于所提取的外觀特征計算每個候選框的n-分類得分;以及將每個候選限界框中的對象分類為n個類別中的一個分類,其中n是大于1的整數(shù)。
在本申請的一個實施例中,通過使用特征學習CNN從每個候選限界框提取外觀特征。可通過以下步驟訓練CNN:訓練具有第一數(shù)目的節(jié)點的第一輸出層和具有第一數(shù)目的整數(shù)倍(例如4倍)的節(jié)點的第二輸出層的第二CNN;用經(jīng)過訓練的第二CNN的神經(jīng)參數(shù)初始化第三CNN;用微調圖像集合訓練第三CNN;為經(jīng)過訓練的第三CNN添加第二數(shù)目的輸出層,其中第二數(shù)目的輸出層中的每個輸出層用于n-類別分類;用第三CNN的神經(jīng)參數(shù)初始化第四CNN;用具有n個節(jié)點的新輸出層替換第四CNN的輸出層;以及用微調圖像集合微調第四CNN以獲得特征學習CNN。
例如,可通過以下操作訓練第二CNN:用經(jīng)過預訓練圖像集合預訓練過的第一CNN的神經(jīng)參數(shù)初始化第二CNN;用兩個新層替換第二CNN的輸出層;以及用微調圖像集合訓練第二CNN。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京市商湯科技開發(fā)有限公司,未經(jīng)北京市商湯科技開發(fā)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201580085497.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





