[發明專利]基于深度學習的跨視角影像實時匹配地理定位方法及系統在審
| 申請號: | 202111444175.8 | 申請日: | 2021-11-30 |
| 公開(公告)號: | CN114241464A | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 涂志剛;李松廉;陳雨勁 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06K9/62;G06N3/04;G06N3/08;G06V10/774;G06V10/75 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 視角 影像 實時 匹配 地理 定位 方法 系統 | ||
本發明提供一種基于深度學習的跨視角影像實時匹配地理定位方法及系統,包括利用域對齊算法將空視圖像與街景圖像初步對齊;構建孿生神經網絡,所述孿生神經網絡的結構包括兩個提取特征圖的卷積神經網絡分支,后接全局描述向量編碼模塊,再接距離度量層;在包含街景圖像與遙感圖像的已有數據集基礎上訓練孿生神經網絡;構建具體應用場景的數據集,并繼續在訓練所得的孿生神經網絡基礎上進行微調訓練;現場抓拍街景圖片,并利用訓練好的網絡在構建的數據集中檢索與之匹配的衛星圖像,從而完成街景圖片的定位。本發明能適用于各類場景下的跨視角圖像地理定位,對實際應用中定位的精度和魯棒性都有一定程度的提高。
技術領域
本發明涉及計算機視覺圖像定位技術領域,特別是涉及一種基于深度學習的地空跨視角圖像實時匹配地理定位方法及系統。
背景技術
圖像地理定位是指僅根據視覺信息確定圖像的拍攝位置的問題。這類問題在計算機視覺領域有著廣闊的應用場景,例如移動終端導航、AR/VR、汽車自動駕駛和視頻地理軌跡生成等。傳統的圖像定位方法是基于街景圖像與街景圖像數據庫進行匹配定位。近年來隨著遙感衛星的不斷發展,海量帶有地理位置信息的衛星圖像被采集下來。因此,估計拍攝圖像地理位置的問題就被轉換為了地面視角圖像與空視圖像的匹配問題,即通過匹配到的帶有地理坐標的衛星圖像去確定拍攝圖像的地理位置,從而實現全球范圍內的圖像定位。
目前,主流的圖像地理定位方法主要分為圖像特征提取、圖像全局描述向量編碼和圖像檢索匹配這三個步驟。在學術研究領域。隨著深度學習技術的不斷發展,Workman和Jacobs首先將深度特征引入到圖像定位匹配任務中。在圖像特征提取方面,Workman等作者首先提出利用卷積神經網絡從查詢圖像中提取特征圖,再使用普通的全連接神經網絡將特征圖編碼為全局描述向量,最后從構建的街景數據庫中檢索出全局描述向量與其最為接近的街景圖像作為匹配圖片;在圖像全局描述向量編碼之中,為了讓網絡結構學習到圖像的旋轉不變特征,Hu等人將VLAD池化算法進行了改進,通過引入soft assignment讓其變成了一個可微分的算法,即可以通過反向傳播算法端到端地訓練該模塊,并在卷積神經網絡網絡上上嵌入NetVLAD,用于跨視角視角圖像匹配;在圖像檢索匹配中,Vo和Hays等作者采用計算全局描述向量的歐氏距離作為度量圖像之間相似度的依據,即全局描述向量間歐式距離越大說明兩圖像相似度越低,被后續學者廣泛采用。
但是,現有的地面圖像與空視圖像的跨視角匹配方法沒能考慮到兩視角圖像之間巨大的域差異以及尺度差異。具體來說,首先地面圖像一般為水平方向上的街景圖像,其獲取的往往是物體的側面信息而空視圖像則是垂直向下的視角,這種視角之下拍攝的往往是物體的上表面信息;其次,地面圖像通常為小范圍的街景圖像而空視圖像一般為覆蓋大面積區域的遙感衛星圖像。本發明則從這兩個跨視角圖像匹配中存在的主要問題入手,首先提出了域對齊算法將地面視角與遙感衛星圖像的空間格局進行粗略地對齊從而加速匹配過程并且提高匹配精度。然后,本發明提出了多尺度注意力編碼器充分考慮兩圖像的多尺度信息,并將其編碼進圖像全局描述向量之中,以提高模型整體的魯棒性。
在實際運用領域,百度公司研發了一個定位一張圖片位置的地點識別技術。用戶將需要識別的圖片上到服務器中,當服務器接收到需要定位的圖片時,它會將圖片編碼為一維的全局描述向量,然后將這些信息與自己的地標數據庫中的信息進行對比,通過一定的算法判識別照片中出現的中外著名地標、景點。然而此定位方法要求用戶上傳的圖像必須包含全球范圍內的著名建筑地標,定位準確率低,無法滿足實際需求。
發明內容
為了解決跨視角圖像定位匹配速度慢、匹配準確率低和覆蓋范圍小的問題,本發明公開了一種基于深度學習的地空跨視角圖像實時匹配地理定位方法和系統,可以僅利用圖片視覺信息進行地理定位,具有匹配速度快、定位精度高和覆蓋范圍廣的特點。
本發明解決其技術問題所采用的技術方案是一種基于深度學習的跨視角影像實時匹配地理定位方法,包括以下步驟:
步驟S1,利用域對齊算法將空視圖像與街景圖像初步對齊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111444175.8/2.html,轉載請聲明來源鉆瓜專利網。





