[發(fā)明專利]一種圖像場景識別方法及裝置、計(jì)算機(jī)設(shè)備以及存儲介質(zhì)在審

申請?zhí)枺?/td>	202010345670.2	申請日：	2020-04-27
公開（公告）號：	CN111539353A	公開（公告）日：	2020-08-14
發(fā)明（設(shè)計(jì)）人：	李巖;康斌	申請（專利權(quán)）人：	騰訊科技（武漢）有限公司
主分類號：	G06K9/00	分類號：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	深圳翼盛智成知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44300	代理人：	蔡艾瑩
地址：	430000 湖北省武***	國省代碼：	湖北;42
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種圖像場景識別方法裝置計(jì)算機(jī) 設(shè)備以及存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實(shí)施例公開了一種圖像場景識別方法及裝置、計(jì)算機(jī)設(shè)備以及存儲介質(zhì)，該方法先獲取待識別圖像中目標(biāo)圖像的圖像特征，對目標(biāo)圖像的圖像特征進(jìn)行處理，得到目標(biāo)圖像的全局特征，并處理目標(biāo)圖像的圖像特征以及全局特征，得到目標(biāo)圖像中各像素對應(yīng)錨點(diǎn)的圖像特征，根據(jù)目標(biāo)圖像中各像素的圖像特征以及各像素對應(yīng)錨點(diǎn)的圖像特征，確定目標(biāo)圖像中各像素的全局信息參數(shù)，根據(jù)目標(biāo)圖像中各像素的圖像特征以及全局信息參數(shù)進(jìn)行場景類別預(yù)測；該方法通過計(jì)算機(jī)視覺技術(shù)基于錨點(diǎn)僅需要計(jì)算像素與對應(yīng)錨點(diǎn)之間的相似度即可得到像素的全局信息，并綜合考慮全局信息進(jìn)行圖像場景識別，提高了準(zhǔn)確性，加快了識別速度。

技術(shù)領(lǐng)域

本申請涉及圖像場景識別領(lǐng)域，具體涉及一種圖像場景識別方法及裝置、計(jì)算機(jī)設(shè)備以及存儲介質(zhì)。

背景技術(shù)

隨著人工智能技術(shù)的發(fā)展，基于計(jì)算機(jī)視覺技術(shù)的圖像場景識別功能在圖像識別領(lǐng)域所占的比重越來越大。

圖像場景識別的目標(biāo)是判斷圖片中場景的不同類型，與圖片分類不同，圖片分類是對圖片內(nèi)的物體進(jìn)行分類，其目標(biāo)是對圖片中占據(jù)主要區(qū)域的局部物體進(jìn)行分類。而圖像場景識別需要全局考慮圖片中多個(gè)物體類別，而不是簡單地依據(jù)局部物體的類別進(jìn)行判斷。例如，為了判斷一幅圖片所屬場景是否為“沙灘”，需要分析判斷圖片中是否同時(shí)存在“沙子”、“大?！?、“藍(lán)天”等多個(gè)類別的物體，反之，如果簡單地根據(jù)圖片中是否存在類別為“沙子”的局部物體，將無法正確地區(qū)分“沙灘”和“沙漠”兩種不同的場景類別。因此，相較于圖片分類，圖像場景識別更加需要對于圖片內(nèi)容全局地處理與融合，才能準(zhǔn)確地實(shí)現(xiàn)對于圖片場景內(nèi)容的理解。

當(dāng)前圖像場景識別模型使用與標(biāo)準(zhǔn)圖像分類任務(wù)一樣的卷積神經(jīng)網(wǎng)絡(luò)，把圖像場景識別作為一種普通的圖像分類任務(wù)進(jìn)行處理。由于卷積神經(jīng)網(wǎng)絡(luò)中每個(gè)卷積核的大小往往是有限的，對應(yīng)的感受野大小也是有限的。對于一個(gè)像素點(diǎn)來說，經(jīng)過一次卷積操作，只能建模一個(gè)鄰域內(nèi)有限的信息，如果想要建模圖片的全局信息，往往需要堆疊多層卷積，逐漸地增大感受野，但是這樣方法使得信息傳播的路程大大增加，大量的信息在信息傳播的過程之中被削弱，進(jìn)而導(dǎo)致圖像場景識別技術(shù)存在準(zhǔn)確率較低，耗時(shí)較長等技術(shù)問題。

申請內(nèi)容

本申請實(shí)施例提供一種圖像場景識別方法及裝置、計(jì)算機(jī)設(shè)備以及存儲介質(zhì)，以提高圖像場景識別技術(shù)的準(zhǔn)確率。

為解決上述技術(shù)問題，本申請實(shí)施例提供以下技術(shù)方案：

本申請實(shí)施例提供一種圖像場景識別方法，其包括：

獲取待識別圖像中目標(biāo)圖像的圖像特征；

對所述目標(biāo)圖像的圖像特征進(jìn)行處理，得到所述目標(biāo)圖像的全局特征，并處理所述目標(biāo)圖像的圖像特征以及所述全局特征，得到所述目標(biāo)圖像中各像素對應(yīng)錨點(diǎn)的圖像特征，各像素對應(yīng)錨點(diǎn)的數(shù)量小于所述目標(biāo)圖像中像素的數(shù)量；

根據(jù)所述目標(biāo)圖像中各像素的圖像特征以及各像素對應(yīng)錨點(diǎn)的圖像特征，得到所述目標(biāo)圖像中各像素的全局信息參數(shù)；

根據(jù)所述目標(biāo)圖像中各像素的圖像特征以及全局信息參數(shù)，對所述待識別圖像進(jìn)行場景類別預(yù)測得到所述待識別圖像的場景識別結(jié)果。

本申請實(shí)施例提供一種圖像場景識別裝置，其包括：

獲取模塊，用于獲取待識別圖像中目標(biāo)圖像的圖像特征；

錨點(diǎn)模塊，用于對所述目標(biāo)圖像的圖像特征進(jìn)行處理，得到所述目標(biāo)圖像的全局特征，并處理所述目標(biāo)圖像的圖像特征以及所述全局特征，得到所述目標(biāo)圖像中各像素對應(yīng)錨點(diǎn)的圖像特征，各像素對應(yīng)錨點(diǎn)的數(shù)量小于所述目標(biāo)圖像中像素的數(shù)量；

全局注意力模塊，用于根據(jù)所述目標(biāo)圖像中各像素的圖像特征以及各像素對應(yīng)錨點(diǎn)的圖像特征，得到所述目標(biāo)圖像中各像素的全局信息參數(shù)；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（武漢）有限公司，未經(jīng)騰訊科技（武漢）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010345670.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。