[發明專利]物體識別方法及裝置有效
| 申請號: | 201610940596.2 | 申請日: | 2016-10-24 |
| 公開(公告)號: | CN106886781B | 公開(公告)日: | 2020-03-10 |
| 發明(設計)人: | 何凱 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06K9/62;G06K9/72 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 物體 識別 方法 裝置 | ||
本申請提供物體識別方法及裝置,所述方法包括:對待識別的圖像進行區域劃分,得到圖像區域集合;將所述圖像區域集合輸入預設的物體識別模型中;其中,所述物體識別模型基于空間視覺上下文信息和語義上下文信息構建而成;在所述物體識別模型中對所述圖像區域集合中每一個圖像區域進行標簽推理;將所述標簽推理得出的概率最大的物體標簽集合中的物體標簽一一標注給對應的圖像區域。應用本申請實施例,可以實現提高物體識別的準確率。
技術領域
本申請涉及圖像識別技術領域,尤其涉及物體識別方法及裝置。
背景技術
物體識別技術,廣泛應用于例如,在搜索場景中,用戶對某一物體拍照后,通過物體識別技術搜索該物體或者類似物體的信息展示;再例如,在購物場景中,用戶對某一物體拍照后,通過物體識別技術搜索該物體或者類似物體供用戶選擇購買。
現有技術中,物體識別主要是通過將待識別圖像進行區域劃分,得到若干圖像區域,每個待識別圖像的區域劃分結果構成一個圖像區域集合;提取每個圖像區域的特征,并根據預先通過機器學習算法構建的物體識別模型分別對每個圖像區域進行物體識別,這一識別過程通常可以稱之為標簽推理。為了提高物體識別的準確率,一般可以通過以下方式:
第一,通過挖掘圖像區域中更有效的特征,來提高識別的準確率。例如使用深度學習(deep-learning)提取出的特征比尺度不變特征變換(Scale-invariant featuretransform,SIFT)提取的特征更加有效。這樣,可以避免不是很有效的特征在識別過程中所引起的干擾。
第二,通過空間視覺上下文信息來提高識別的準確率。所述空間識別上下文信息所基于的假設為:在相鄰圖像區域之間,屬于同一個物體的可能性較大。例如,在識別當前圖像區域i時,可以參考其相鄰圖像區域j,假設相鄰圖像區域j被標注為牛,那么當前圖像區域i同樣被標注為牛的可能性要比其它物體要高的多。這樣的方式也被稱為標簽平滑。
然而,這些方式雖然可以部分提高物體識別的準確率,但是整體上物體識別的準確率依然不是很理想,尤其是當圖像中內容較為復雜,包含的物體較多的情況下,采用現有技術中物體識別方法的準確率經常無法滿足應用需求。
發明內容
本申請提供一種物體識別方法及裝置,以解決現有技術中存在的物體識別的準確率不高的問題。
根據本申請實施例提供的一種物體識別方法,所述方法包括:
對待識別的圖像進行區域劃分,得到圖像區域集合;
將所述圖像區域集合輸入預設的物體識別模型中;其中,所述物體識別模型基于空間視覺上下文信息和語義上下文信息構建而成;
在所述物體識別模型中對所述圖像區域集合中每一個圖像區域進行標簽推理;
將所述標簽推理得出的概率最大的物體標簽集合中的物體標簽一一標注給對應的圖像區域。
可選的,所述物體識別模型包括條件隨機場、馬爾科夫隨機場或稀疏編碼模型。
可選的,所述條件隨機場模型為:
其中,Z是預設的歸一化常數;是圖像區域的特征和被判斷物體之間關系的點勢函數;所述是基于空間視覺上下文信息的邊勢函數;是基于語義上下文信息的邊勢函數;S是圖像區域集合;R是圖像區域i相鄰的圖像區域j的集合;C是物體k、p之間具有共現關系的集合;X是所有圖像區域的特征集合;是圖像區域i被標注為物體k的標簽值;是圖像區域j被標注為物體k的標簽值;是圖像I被標注為物體p的標簽值。
可選的,所述圖像區域的特征和被判斷物體之間關系的點勢函數如下公式所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610940596.2/2.html,轉載請聲明來源鉆瓜專利網。





