[發明專利]物體識別方法及裝置在審
| 申請號: | 201911148201.5 | 申請日: | 2019-11-21 |
| 公開(公告)號: | CN110942005A | 公開(公告)日: | 2020-03-31 |
| 發明(設計)人: | 楊爽 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;H04N21/2187 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 張子青;臧建明 |
| 地址: | 310052 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 物體 識別 方法 裝置 | ||
本申請實施例提供一種物體識別方法及裝置,該方法包括:獲取第一圖片,其中,第一圖片為包括第一物體的圖片。將第一圖片輸入至檢測模型,以使得檢測模型輸出第一物體的識別信息,其中,識別信息包括第一物體對應的第一邊框的坐標、第一邊框的尺寸和第一物體的類別,檢測模型為對多組樣本訓練得到的,每組樣本包括樣本圖片和樣本識別信息,樣本圖片為多種預設條件下的直播場景的圖片,樣本識別信息包括樣本圖片中所包括的物體的樣本邊框的坐標、樣本邊框的尺寸和物體的樣本類別。通過根據多種預設條件下的實際直播場景所對應的樣本圖片以及樣本識別信息進行訓練得到檢測模型,從而能夠有效提升檢測模型輸出的第一圖片的識別信息的準確率。
技術領域
本申請實施例涉及計算機技術,尤其涉及一種物體識別方法及裝置。
背景技術
為了提升用戶觀看直播時的觀賞體驗,通常需要對直播中的物體進行添加動畫特效或者背景虛化等處理,因此針對直播場景中的物體識別就顯得尤為重要。
目前,現有技術在針對場景進行圖片識別時,通常是通過基于OpenCV的圖片匹配算法,其中,基于OpenCV的處理方法在簡單單一的場景中能夠取得良好的效果,然而,針對復雜場景或者識別角度存在偏差的圖片,現有技術通常對物體進行識別的準確率較低。
發明內容
本申請實施例提供一種物體識別方法及裝置,以克服對物體進行識別的準確率較低的問題。
第一方面,本申請實施例提供一種物體識別方法,包括:
獲取第一圖片,其中,所述第一圖片為包括第一物體的圖片;
將所述第一圖片輸入至檢測模型,以使得檢測模型輸出第一物體的識別信息,其中,所述識別信息包括第一物體對應的第一邊框的坐標、第一邊框的尺寸和所述第一物體的類別,所述檢測模型為對多組樣本訓練得到的,每組樣本包括樣本圖片和樣本識別信息,所述樣本圖片為多種預設條件下的直播場景的圖片,所述樣本識別信息包括所述樣本圖片中所包括的物體的樣本邊框的坐標、樣本邊框的尺寸和所述物體的樣本類別。
在一種可能的設計中,所述將所述第一圖片輸入至檢測模型之前,所述方法還包括:
獲取多張樣本圖片,其中,所述樣本圖片為實際直播間場景所對應的圖片,所述樣本圖片包括第二物體;
針對任一張樣本圖片,將所述樣本圖片輸入至檢測模型,以使得檢測模型輸出第二物體的預測識別信息;
根據所述第二物體的預測識別信息和所述樣本識別信息,確定所述檢測模型輸出的預測識別信息的損失函數值;
判斷所述損失函數值是否滿足預設閾值,若是,則確定所述檢測模型訓練完成,若否,則重復執行上述將樣本圖片輸入至檢測模型的操作,直至所述檢測模型輸出的第二物體的預測識別信息的損失函數值滿足預設閾值。
在一種可能的設計中,所述獲取多張樣本圖片,包括:
在各個不同的預設條件所對應直播場景下,分別獲取多張直播場景的圖片;
對獲取的多張直播場景的圖片分別進行圖片增強處理,以得到多張樣本圖片,其中,所述圖片增強處理至少包括:調節飽和度、調節亮度、調節對比度、左右翻轉、旋轉預設角度。
在一種可能的設計中,所述檢測模型為神經網絡模型;
所述神經網絡模型所包括的特征圖尺寸為13×13、26×26以及52×52;
所述52×52的特征圖尺寸所對應的邊框的尺寸為10×13、16×30以及33×23。
在一種可能的設計中,所述將所述樣本圖片輸入至檢測模型之前,所述方法還包括:
根據k-means函數確定所述樣本圖片所對應的預測邊框的初始尺寸;以及
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911148201.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:液晶顯示器
- 下一篇:一種基于多時相熱紅外遙感影像的云檢測方法





