[發(fā)明專利]基于CNN且抗波動性強的客體檢測方法及裝置在審
| 申請?zhí)枺?/td> | 201911294522.6 | 申請日: | 2019-12-16 |
| 公開(公告)號: | CN111461161A | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設(shè)計)人: | 金桂賢;金镕重;金寅洙;金鶴京;南云鉉;夫碩焄;成明哲;呂東勛;柳宇宙;張?zhí)┬?/a>;鄭景中;諸泓模;趙浩辰 | 申請(專利權(quán))人: | 斯特拉德視覺公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 韓國慶*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 cnn 波動性 客體 檢測 方法 裝置 | ||
1.一種利用目標(biāo)客體預(yù)測網(wǎng)絡(luò)的客體檢測器的參數(shù)的學(xué)習(xí)方法,其特征在于,包括:
(a)步驟,輸入至少一個訓(xùn)練圖像后,學(xué)習(xí)裝置(i)使一個以上的卷積層,對與所述訓(xùn)練圖像對應(yīng)的至少一個第1加工圖像應(yīng)用一個以上的卷積運算,使得輸出至少一個第1特征圖,(ii)使區(qū)域推選網(wǎng)絡(luò)RPN,利用所述第1特征圖,輸出與位于所述第1加工圖像內(nèi)的一個以上第1客體分別對應(yīng)的一個以上的第1客體推選,(iii)使池化層,在所述第1特征圖上,對與所述各個第1客體推選分別對應(yīng)的各個區(qū)域,應(yīng)用一個以上的池化運算,輸出至少一個第1池化后特征圖,(iv)使全連接FC層,對所述第1池化后特征圖應(yīng)用至少一個FC運算,輸出與所述第1客體對應(yīng)的第1客體檢測信息,(v)使FC損失層,參照所述第1客體檢測信息和與其對應(yīng)的地面真值GT,獲得一個以上的第1FC損失,進而通過利用所述第1FC損失的反向傳播,學(xué)習(xí)所述FC層與所述卷積層的參數(shù)中至少一部分;及
(b)步驟,在使k從2增加到n的同時,所述學(xué)習(xí)裝置(i)使所述目標(biāo)客體預(yù)測網(wǎng)絡(luò),參照第(k-1)加工圖像上的一個以上的第(k-1)客體推選,在所述第(k-1)加工圖像上,查找與預(yù)測為至少一個目標(biāo)客體所在的區(qū)域?qū)?yīng)的第(k-1)目標(biāo)區(qū)域,(ii)在所述訓(xùn)練圖像或調(diào)整了大小的訓(xùn)練圖像上,獲得與所述第(k-1)目標(biāo)區(qū)域?qū)?yīng)的第k加工圖像后,使所述卷積層,對所述第k加工圖像應(yīng)用所述卷積運算,輸出第k特征圖,(iii)使所述RPN,參照所述第k特征圖,輸出與位于所述第k加工圖像內(nèi)的一個以上第k客體分別對應(yīng)的一個以上的第k客體推選,(iv)使所述池化層,在所述第k特征圖上,對與所述各個第k客體推選分別對應(yīng)的各個區(qū)域應(yīng)用所述池化運算,輸出至少一個第k池化后特征圖,(v)使所述FC層,對所述第k池化后特征圖應(yīng)用所述FC運算,輸出與所述第k客體對應(yīng)的第k客體檢測信息,(vi)使所述FC損失層,參照所述第k客體檢測信息和與其對應(yīng)的GT,獲得一個以上的第kFC損失,進而通過利用所述第kFC損失的反向傳播,學(xué)習(xí)所述FC層及所述卷積層的參數(shù)中至少一部分。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,
在所述(a)步驟中,
所述學(xué)習(xí)裝置使RPN損失層,參照所述第1客體推選的信息和與其對應(yīng)的GT,獲得一個以上的第1RPN損失,進而通過利用所述第1RPN損失的反向傳播而調(diào)整所述RPN的參數(shù)中至少一部分,
在所述(b)步驟中,
所述學(xué)習(xí)裝置使所述RPN損失層,參照所述第k客體推選的信息和與其對應(yīng)的GT,獲得一個以上的第kRPN損失,進而通過利用所述第kRPN損失的反向傳播而調(diào)整所述RPN的參數(shù)中至少一部分。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,
在所述(b)步驟中,
所述學(xué)習(xí)裝置使所述目標(biāo)客體預(yù)測網(wǎng)絡(luò),(i)將所述第(k-1)加工圖像區(qū)分為MxN柵格,(ii)生成顯示出所述第(k-1)客體推選中的與所述柵格每個單元分別對應(yīng)的推選個數(shù)的至少一個以上直方圖,且在所述柵格的各單元內(nèi),存在與其對應(yīng)的所述各個推選的全體區(qū)域或分割區(qū)域,(iii)使用移動窗中至少一個區(qū)域,決定所述第(k-1)目標(biāo)區(qū)域,所述至少一個區(qū)域是指變更所述移動窗位置時所占有的所有區(qū)域中、所述直方圖之和具有最大的值的區(qū)域。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,
在所述(b)步驟中,
所述學(xué)習(xí)裝置將所述訓(xùn)練圖像的尺寸擴大為大于所述第1加工圖像的尺寸,生成所述調(diào)整了大小的訓(xùn)練圖像后,在所述調(diào)整了大小的訓(xùn)練圖像上,裁剪與所述第(k-1)目標(biāo)區(qū)域?qū)?yīng)的至少一個區(qū)域,生成所述第k加工圖像。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,
在所述(b)步驟中,
所述學(xué)習(xí)裝置在所述訓(xùn)練圖像上,裁剪與所述第(k-1)目標(biāo)區(qū)域?qū)?yīng)的至少一個區(qū)域,對所述裁剪區(qū)域調(diào)整大小,生成所述第k加工圖像。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,
對所述第k加工圖像調(diào)整大小,使得所述第k加工圖像的尺寸大于所述第(k-1)目標(biāo)區(qū)域的尺寸。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于斯特拉德視覺公司,未經(jīng)斯特拉德視覺公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911294522.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 圖像語義標(biāo)注的設(shè)備和方法及其模型的生成方法和系統(tǒng)
- 使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理
- 為數(shù)據(jù)庫確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 采用嵌入式系統(tǒng)中的小規(guī)模卷積神經(jīng)網(wǎng)絡(luò)模塊的人臉檢測
- 針對深度通道和卷積神經(jīng)網(wǎng)絡(luò)圖像和格式使用相機設(shè)備的方法和系統(tǒng)
- 處理卷積神經(jīng)網(wǎng)絡(luò)的方法
- CNN加速器和電子設(shè)備
- 一種基于混合神經(jīng)網(wǎng)絡(luò)的腦電時空特征學(xué)習(xí)與情感分類方法
- 一種基于FPGA的深度學(xué)習(xí)加速方法





