[發(fā)明專利]一種使用分區(qū)決策機制提高圖像分類準確率的方法在審
| 申請?zhí)枺?/td> | 202210406278.3 | 申請日: | 2022-04-18 |
| 公開(公告)號: | CN114743055A | 公開(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計)人: | 唐永翔;金福生;袁野;王國仁;馬波 | 申請(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京慕達星云知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11465 | 代理人: | 符繼超 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 使用 分區(qū) 決策 機制 提高 圖像 分類 準確率 方法 | ||
本發(fā)明公開了一種使用分區(qū)決策機制提高圖像分類準確率的方法,基于集成學(xué)習(xí)思想,使用分區(qū)決策機制,讓模型針對圖像不同區(qū)域進行識別,將多個識別結(jié)果匯總,進而推斷出整張圖像所屬類別,提供了一種能夠穩(wěn)定、可靠地提高圖像分類準確率的模型改進方法,且模型訓(xùn)練流程簡單,提高卷積神經(jīng)網(wǎng)絡(luò)模型進行圖像分類時的準確率,同時不為訓(xùn)練帶來過大的額外運算開銷。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能計算機視覺圖像識別技術(shù)領(lǐng)域,更具體的說是涉及一種使用分區(qū)決策機制提高圖像分類準確率的方法。
背景技術(shù)
圖像識別,是指利用計算機等設(shè)備對圖像進行處理和分析,提取圖像特征,并完成分類、目標檢測、匹配等任務(wù)。圖像識別是計算機視覺領(lǐng)域的重要研究方向,隨著近些年人工智能技術(shù)的發(fā)展,涌現(xiàn)出了越來越多的方法和應(yīng)用成果。圖像分類是圖像識別領(lǐng)域重要的子任務(wù),許多計算機視覺工作都要在圖像分類的基礎(chǔ)上展開,例如目標檢測任務(wù)的一個核心問題就是如何正確識別檢測框中的子圖的類別。目前,解決圖像分類問題最常用的是深度學(xué)習(xí)方法,通過構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò),使用梯度下降的優(yōu)化方法,讓模型在訓(xùn)練中自動學(xué)習(xí)抽取圖像特征的方法,完成圖像分類。但是目前許多主流的卷積神經(jīng)網(wǎng)絡(luò)改進方法都存在以下問題:
1)改進效果不穩(wěn)定。在不同的數(shù)據(jù)集和應(yīng)用場景中,改進方法對模型準確率的提高效果難以保證,甚至可能出現(xiàn)低于原始模型準確率的情況;
2)可移植性差。多數(shù)改進方法之間是互斥的,無法同時采用,由此導(dǎo)致一項研究的有效性常常建立在對其他研究的否定上;
3)可解釋性差。許多改進方法本質(zhì)上是依賴于算力和數(shù)據(jù)規(guī)模的堆砌,改進效果難以得到合理解釋,且可能導(dǎo)致系統(tǒng)運行代價的增高。
集成學(xué)習(xí)是一種能夠有效克服上述問題的模型改進思想,它通過訓(xùn)練多個模型,或?qū)蝹€模型進行多次基于不同數(shù)據(jù)的訓(xùn)練,利用概率論原理,降低模型簡單地單次識別時的錯誤概率,達到提高模型準確率的效果。基于一些簡單的概率論原理相關(guān)計算,集成學(xué)習(xí)對模型準確率的提升效果是容易證明的,且能夠穩(wěn)定、良好地適用于絕大多數(shù)場景。
因此,如何提升圖像識別模型的準確率,且不增加額外的運算開銷是本領(lǐng)域技術(shù)人員亟需解決的問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種使用分區(qū)決策機制提高圖像分類準確率的方法,基于集成學(xué)習(xí)思想,使用分區(qū)決策機制,讓模型針對圖像不同區(qū)域進行識別,將多個識別結(jié)果匯總,進而推斷出整張圖像所屬類別,提供了一種能夠穩(wěn)定、可靠地提高圖像分類準確率的模型改進方法,且模型訓(xùn)練流程簡單,提高卷積神經(jīng)網(wǎng)絡(luò)模型進行圖像分類時的準確率,同時不為訓(xùn)練帶來過大的額外運算開銷。
為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種使用分區(qū)決策機制提高圖像分類準確率的方法,包括以下步驟:
步驟1:收集大量針對目標應(yīng)用場景的圖像數(shù)據(jù),為這些圖像人工標注類別標簽,或直接使用相關(guān)的公開數(shù)據(jù)集,將其組織成原始圖像數(shù)據(jù)集,并劃分為訓(xùn)練集和測試集;
步驟2:對步驟1中所得的原始圖像數(shù)據(jù)集中的圖像進行分區(qū)裁剪,生成裁剪后的子圖數(shù)據(jù)集;
其中,對于分區(qū)裁剪算法,針對數(shù)據(jù)集中的不同圖像,既可以全部按照相同的裁剪方案進行裁剪,也可以根據(jù)每張圖像形狀、尺寸的差異分別采用不同的裁剪方案裁剪為統(tǒng)一尺寸;該子圖數(shù)據(jù)集將代替原始圖像數(shù)據(jù)集,參與卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練;
步驟3:構(gòu)造數(shù)據(jù)集讀取器,并對數(shù)據(jù)集讀取器從所述子圖數(shù)據(jù)集中分批選取出的若干子圖像進行數(shù)據(jù)預(yù)處理,獲得訓(xùn)練圖像;
數(shù)據(jù)集讀取器用于控制每批次訓(xùn)練時從數(shù)據(jù)集中讀取數(shù)據(jù)的流程,包括選取多少張圖像、選取算法、如何對圖像進行預(yù)處理、如何獲取圖像真實標簽等,其中,針對步驟2中所得的子圖數(shù)據(jù)集,選取算法可以分為隨機選取子圖、順序選取來自同一張圖像中的子圖,或兩者相結(jié)合等方式實現(xiàn);而數(shù)據(jù)預(yù)處理流程包括各種數(shù)據(jù)增廣、標準化方法等;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210406278.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種鉛蓄電池化成及余酸處理方法
- 下一篇:一種靜音型高速軸承及其加工工藝
- 決策協(xié)調(diào)方法、執(zhí)行裝置和決策協(xié)調(diào)器
- 一種基于循環(huán)更新模式的決策樹構(gòu)建方法
- 一種基于群決策的建筑項目決策系統(tǒng)及決策方法
- 一種基于反射弧的智慧大腦決策系統(tǒng)及決策方法
- 一種三維消防指揮決策輔助系統(tǒng)
- 一種決策方法、系統(tǒng)以及電子設(shè)備
- 基于決策引擎和模型平臺的業(yè)務(wù)決策邏輯更新方法
- 一種雙層優(yōu)先級決策系統(tǒng)
- 一種應(yīng)用程序的業(yè)務(wù)執(zhí)行方法、裝置及電子設(shè)備
- 基于區(qū)塊鏈的決策方法及裝置和電子設(shè)備





