[發明專利]用于場景認知的神經網絡的訓練方法、裝置及終端設備有效
| 申請號: | 201910573347.8 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110378250B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 宋呈群;程俊;王鵬 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 黃志云 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 場景 認知 神經網絡 訓練 方法 裝置 終端設備 | ||
本發明適用于深度神經網絡技術領域,提供了一種用于場景認知的神經網絡的訓練方法、裝置及終端設備,通過根據源視圖,通過神經網絡合成與目標視圖接近的第一圖像和第二圖像,其中源視圖為序列圖像中的任意一幀圖像,目標視圖為與源視圖相鄰的下一幀圖像;再基于第一圖像和目標視圖,構建相機姿態預測子網絡的第一損失函數,基于第二圖像和目標視圖,構建深度圖預測子網絡的第二損失函數;然后,通過基于第一圖像和第二圖像所構建的損失函數對神經網絡進行訓練,從而提供了一種能夠不依賴于有標簽的訓練圖像、精確的深度圖以及相機運動信息,也能夠識別任意場景的神經網絡。
技術領域
本發明屬于深度神經網絡技術領域,尤其涉及一種用于場景認知的神經網絡的訓練方法、裝置及終端設備。
背景技術
現有利用深度學習進行場景識別的神經網絡,都是通過訓練集圖片自帶的樣本和標簽進行訓練,然后利用訓練好的模型來對圖片進行特征提取,通過提取的特征點匹配來獲取深度,但是實際中大部分的圖片都沒有標簽,即使可以利用人工標注,也需要花費很大的時間和成本。
而現有的從運動中恢復結構方法(SFM)在一定程度上能夠解決圖片標簽的問題,能夠有效解決大多數場景識別問題,但它通常需要預先估計相機的運動,再通過塊匹配搜索獲取場景結構,因此對相機運動的錯誤估計將會導致錯誤的深度預測,使得依賴于精確的圖像匹配的SFM方法,在紋理較低、幾何/光度復雜、結構單一和遮擋的區域無法很好地實現場景識別,并且在相機平移幅度很小時無法識別當前的場景。
發明內容
有鑒于此,本發明實施例提供了一種用于場景認知的神經網絡的訓練方法、裝置及終端設備設備,以提供一種能夠不依賴于有標簽的訓練圖像、精確的深度圖以及相機運動信息,也能夠識別任意場景的神經網絡。
本發明實施例的第一方面提供了一種用于場景認知的神經網絡訓練方法,包括:
根據源視圖,分別通過所述神經網絡的相機姿態預測子網絡和深度圖預測子網絡,合成與目標視圖接近的第一圖像和第二圖像,所述源視圖為序列圖像中的任意一幀圖像,所述目標視圖為與所述源視圖相鄰的下一幀圖像;
基于所述第一圖像和所述目標視圖,構建所述相機姿態預測子網絡的第一損失函數;
基于所述第二圖像和所述目標視圖,構建所述深度圖預測子網絡的第二損失函數;
基于所述第一損失函數和所述第二損失函數,對所述神經網絡進行訓練以使得所述神經網絡能夠識別各種場景。
本發明實施例的第二方面提供了一種用于場景認知的神經網絡訓練裝置,包括:
圖像合成單元,用于根據源視圖,分別通過所述神經網絡的相機姿態預測子網絡和深度圖預測子網絡,合成與目標視圖接近的第一圖像和第二圖像,所述源視圖為序列圖像中的任意一幀圖像,所述目標視圖為與所述源視圖相鄰的下一幀圖像;
第一損失函數構建單元,用于基于所述第一圖像和所述目標視圖,構建所述相機姿態預測子網絡的第一損失函數;
第二損失函數構建單元,用于基于所述第二圖像和所述目標視圖,構建所述深度圖預測子網絡的第二損失函數;
神經網絡訓練單元,用于基于所述第一損失函數和所述第二損失函數,對所述神經網絡進行訓練以使得所述神經網絡能夠識別各種場景。
本發明實施例的第三方面提供了一種終端設備,包括:
存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其中,所述處理器執行所述計算機程序時實現本發明實施例的第一方面提供的用于場景認知的神經網絡訓練方法的步驟。
其中,所述計算機程序包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910573347.8/2.html,轉載請聲明來源鉆瓜專利網。





