[發(fā)明專利]一種菜品檢測方法在審
| 申請?zhí)枺?/td> | 201611243913.1 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106874913A | 公開(公告)日: | 2017-06-20 |
| 發(fā)明(設計)人: | 吳斌;歐烈川;劉瀟 | 申請(專利權)人: | 南京江南博睿高新技術研究院有限公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06K9/62;G06N3/04 |
| 代理公司: | 南京正聯(lián)知識產權代理有限公司32243 | 代理人: | 黃智明 |
| 地址: | 210019 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 菜品 檢測 方法 | ||
技術領域
本發(fā)明屬于計算機圖像處理領域,具體來說涉及一種快速檢測圖像中的菜品區(qū)域的技術。
背景技術
在使用圖像識別菜品種類的任務中,通常識別系統(tǒng)的返回結果只限定于菜品種類,并且局限于菜品這一大類,對于并不包含菜品的圖片其返回結果也僅限于識別程序所包含的種類。如果提交給識別系統(tǒng)的圖像并不包含菜品,系統(tǒng)并不能對圖像是否包含菜品做出判斷,仍會返回最有可能的菜品種類,從而產生錯誤的結果。
發(fā)明內容
因此,本發(fā)明提供一種從圖像中檢測菜品所在區(qū)域的方案,可檢測出圖像中包含的一個或多個菜品,并分別給出每個菜品所在區(qū)域的左上角坐標x,y以及寬度w和高度h,在圖像中不包含菜品的情況下則無返回結果。
具體來說,本發(fā)明采用了以下技術方案:
一種菜品檢測方法,其特征在于,所述方法包括以下步驟:1)輸入待檢測的圖像;2)使用預先訓練的卷積神經(jīng)網(wǎng)絡提取圖像特征;3)以特征圖中每個元素在原圖中對應位置為中心,給出提議區(qū)域;4)根據(jù)每個提議區(qū)域中心對應的特征向量判斷該區(qū)域是否為物體;5)如果提議區(qū)域是物體,則使用SPPNET提取該區(qū)域的特征;6)根據(jù)區(qū)域特征做回歸,計算更準確的bounding box,同時判斷該區(qū)域是否為菜品。
在以上方法中,步驟2)提取圖像特征的步驟包括:首先將待檢測圖像轉換為224*224像素作為特征提取網(wǎng)絡的輸入,然后做5層卷積,每層卷積核分別為7*7、5*5、3*3、3*3、3*3,并且對每層提取的特征圖的局部區(qū)域做最大值池化,得到大小為51*39,每個位置256維的特征圖,該256維向量即為該位置對應原圖局部區(qū)域的特征向量。
進一步,步驟3)給出提議區(qū)域的步驟包括:以特征圖中每個元素在原圖中的對應位置為中心,以原圖大小為1000*600為標準,給出三種尺度128、256、512,三種比例1:1、1:2、2:1,共九個提議區(qū)域。
更進一步,步驟4)判斷是否為物體的步驟包括:如果原圖中的bounding box和提議區(qū)域重合部分超過70%則認為該區(qū)域包含物體,否則認為不包含,對圖像作標簽;使用提議區(qū)域中心對應的特征向量作為特征;使用特征和標簽訓練一個全連接的神經(jīng)網(wǎng)絡來判斷該區(qū)域是否為物體。
接著,步驟5)包括:在提議區(qū)域是物體的情況下,在特征圖上找到待提取特征的局部圖像對應的區(qū)域,將該區(qū)域分別以4*4、2*2、1*1三種比例將特征圖進行分割,對分割好的每一塊做最大值池化,提取該區(qū)塊的256維特征,將各區(qū)塊提取出的特征連接到一起,最終得到4*4*256+2*2*256+1*1*256=5376維特征。
更進一步,步驟6)包括:將通過SPPNET提取出的區(qū)域特征向量作為輸入,以該區(qū)域屬于菜品和背景的可能性作為輸出,訓練一個神經(jīng)網(wǎng)絡,通過該神經(jīng)網(wǎng)絡進行判斷。在以上步驟時,判斷是否屬于菜品時,當為菜品的可能性為90%時將該物體判斷為菜品。
附圖說明
圖1為本發(fā)明方法的流程示意圖;
圖2為本發(fā)明方法步驟中所用到的提議區(qū)域示意圖。
具體實施方式
在使用圖像識別菜品種類的任務中,通常識別系統(tǒng)的返回結果只限定于菜品種類。如果提交給識別系統(tǒng)的圖像并不包含菜品,系統(tǒng)并不能對圖像是否包含菜品做出判斷,仍會返回最有可能的菜品種類,從而產生錯誤的結果。
因此,本發(fā)明提供一種從圖像中檢測菜品所在區(qū)域的方案,可檢測出圖像中包含的一個或多個菜品,并分別給出每個菜品所在區(qū)域的左上角坐標x,y以及寬度w和高度h,在圖像中不包含菜品的情況下則無返回結果。
在本文采用的技術之前,傳統(tǒng)的物體檢測領域的主流方法是DPM (Deformable parts models)。DPM在VOC2007數(shù)據(jù)集上達到了43%的mAP (Mean Average Precision,平均正確率均值,在物體檢測領域為多個不同物體的檢測的準確率的平均值),運算效率可以接近實時(30fps~100fps)。
隨后出現(xiàn)的RCNN引入了卷積神經(jīng)網(wǎng)絡作為特征提取方法,并提出了一套物體檢測框架,即提議區(qū)域→特征提取→分類和bounding box調整。該方法在準確率上有所突破,在VOC2007上達到了53.5%的mAP。然而由于需要對每個提議區(qū)域做特征提取,該算法非常耗時,根據(jù)提議區(qū)域數(shù)量的不同,該算法需要幾十秒到上百秒不等的運算時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京江南博睿高新技術研究院有限公司,未經(jīng)南京江南博睿高新技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611243913.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





