[發明專利]一種基于深度學習獲取圖像城市范圍內位置及姿態的方法有效
| 申請號: | 201711493997.9 | 申請日: | 2017-12-31 |
| 公開(公告)號: | CN108230240B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 紀榮嶸;郭鋒;黃劍波 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06T3/00 | 分類號: | G06T3/00;G06T7/73;G06N3/08;G06K9/62 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 獲取 圖像 城市 范圍內 位置 姿態 方法 | ||
1.一種基于深度學習獲取圖像城市范圍內位置及姿態的方法,其特征在于包括如下步驟:
1)創建城市圖片集;
2)對城市圖片集訓練混合高斯模型,用訓練出的混合高斯模型劃分城市地理區域:初始化的城市圖片集訓練混合高斯模型,用訓練出的混合高斯模型劃分城市地理區域,初始化的圖片數據集包含了M個地標區域c1,2...M,位置標簽xj屬于某個區域ci,使用第j張圖片屬于第i個區域的后驗概率來確定圖片j屬于哪個區域;具體步驟為:
(1)用貝葉斯公式計算后驗概率:
條件概率p(y=i|xj)表示xj屬于區域ci的概率,p(xj|y=i)服從歸一化的高斯分布:
其中xj-ui表示照片j與第i類區域中心之間的地理距離;
(2)由于各個成分的參數和每張圖片的區域分配都是未知的,因此采用EM算法求解混合高斯模型,對區域劃分概率密度函數進行參數估計,對數似然函數的計算如下:
θi是第i個高斯成分的系數,系統算法在EM過程逐步迭代逼近最大似然值;
(3)在第t次迭代估計一個GMM模型的參數λt:
λt={μ1(t),...μM(t),Σ1(t),...ΣM(t),p1(t),...pM(t)}
(4)設置λt對每個訓練樣本計算似然函數,隨后用似然函數最大的分布更新參數λt+1;
(5)重復計算步驟(3)和(4),直到似然函數的值收斂為止,算法得到對于樣本xj的最優區域指派p(y=i|xj,λt)以及對應高斯成分的最優參數;
3)訓練聯合學習圖片姿態估計和場景識別神經網絡,具體方法為:在網絡末端引出三個子網絡,同時進行訓練,第一個輸出和第二個輸出分別用于輸入圖片位置的回歸和圖片方向的回歸,使用歐式損失來訓練姿態估計,為每張圖片計算與ground truth的位置損失Lossloc和方向損失Lossoren如下:
三維向量x表示圖像相機在三維空間中位置XYZ,四元素向量q表示三維空間中的方向,帶head的變量表示樣本的ground truth;
第三個子網絡輸出一個離散的概率分布,其中p0代表背景類的概率,用于輸出分類的最后一層全連接層擁有C+1個神經元,使用Softmax計算對應于每個類別的輸出概率pc,分類任務的Softmax損失公式如下:
其中,表示樣本屬于類別的概率,若樣本屬于類別,則標注否則等于最后計算出3個單獨損失的加權求和來計算整個模型的總損失:
計算公式(5)中的losst代表第t個損失函數,λt表示它們的權重系數,權重λt由各個任務在整個目標函數中的重要程度決定;
4)初始化,上傳用戶的GPS或者網絡粗略位置信息;
5)使用學習的劃分函數對粗略的位置信息進行劃分,下載對應網絡模型和需要展示的渲染資料到用戶端;
6)采集用戶輸入相機視頻流,運用下載的當前區域的網絡模型預測當前時刻的三個層面的定位結果,若網絡輸出的預測結果置信度高于閾值,則使用預測的位置和姿態參數進行渲染資料的渲染。
2.如權利要求1所述一種基于深度學習獲取圖像城市范圍內位置及姿態的方法,其特征在于在步驟1)中,所述創建城市圖片集的具體方法為:使用網絡爬蟲至圖片分享網站下載城市中各個地方的景觀圖片,組成城市級別的圖片數據庫;假設初始化圖片數據集包含了M個地標區域c1,2...M,位置標簽xj屬于某個區域ci。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711493997.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:人臉表情圖像合成裝置
- 下一篇:一種設備帶角度側裝的魚眼圖像校正方法





