[發明專利]地理與視覺跨模態預訓練模型的訓練方法、位置確定方法有效
| 申請號: | 202210638232.4 | 申請日: | 2022-06-07 |
| 公開(公告)號: | CN114926655B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 黃際洲;劉希巖;夏德國;王海峰 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06V10/44 | 分類號: | G06V10/44;G06V10/764;G06V10/82;G06N3/08;G06N3/04 |
| 代理公司: | 北京易光知識產權代理有限公司 11596 | 代理人: | 王姍姍;武晨燕 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地理 視覺 跨模態預 訓練 模型 方法 位置 確定 | ||
1.一種地理與視覺跨模態預訓練模型的訓練方法,包括:
基于地圖數據構建預訓練數據集;
根據所述預訓練數據集和預訓練目標,對待訓練模型進行模型訓練,得到多視覺任務約束的第一預訓練模型;
其中,所述根據預訓練數據集和預訓練目標,對待訓練模型進行模型訓練,得到多視覺任務約束的第一預訓練模型,包括:
將從預訓練數據集獲取的預處理結果進行圖像特征和地理位置編碼特征的多次融合處理,得到第二特征;
將所述第二特征輸入多視覺任務學習框架中,得到用于表征所述多視覺任務學習框架預訓練目標的總損失函數;
根據所述總損失函數對所述待訓練模型進行所述模型訓練,得到所述第一預訓練模型。
2.根據權利要求1所述的方法,其中,所述基于地圖數據構建預訓練數據集,包括:
所述地圖數據為歷史地圖數據的情況下,從所述歷史地圖數據中篩選出滿足第一條件的第三圖像信息及與所述第三圖像信息對應的第三地理位置信息;
對所述第三圖像信息和所述第三地理位置信息進行預處理,得到用于表征圖像特征和地理位置編碼特征的預處理結果;
根據所述預處理結果,構建所述預訓練數據集。
3.根據權利要求2所述的方法,其中,所述第一條件包括:在歷史采集次數超過N次的覆蓋區域所得到的所述歷史地圖數據中攜帶深度圖信息;所述N為大于2的正整數。
4.根據權利要求2所述的方法,其中,所述對所述第三圖像信息和所述第三地理位置信息進行預處理,得到用于表征圖像特征和地理位置編碼特征的預處理結果,包括:
對所述第三圖像信息進行圖像預處理,得到與眾包數據分辨率相同的第四圖像信息;
對所述第三地理位置信息進行編碼預處理,得到第四圖像位置編碼信息;
對所述第四圖像信息進行劃分預處理,得到所述第四圖像信息中各個圖像塊;
對所述第四圖像信息中各個圖像塊進行編碼預處理,得到所述第四圖像信息中各個圖像塊位置編碼信息;
將所述第四圖像信息、所述第四圖像位置編碼信息、所述第四圖像信息中各個圖像塊位置編碼信息作為所述預處理結果。
5.根據權利要求2-4中任一項所述的方法,其中,所述根據所述預訓練數據集和預訓練目標,對待訓練模型進行模型訓練,得到多視覺任務約束的第一預訓練模型,包括:
將從所述預訓練數據集獲取的所述預處理結果輸入所述待訓練模型,對所述預處理結果進行所述圖像特征和所述地理位置編碼特征的第一融合處理,得到第一融合數據;
對所述第一融合數據進行特征提取,得到第一特征;
將所述第一特征和所述地理位置編碼特征進行第二融合處理,得到第二特征;
將所述第二特征輸入多視覺任務學習框架中,得到用于表征所述多視覺任務學習框架預訓練目標的總損失函數;
根據所述總損失函數對所述待訓練模型進行所述模型訓練,得到所述第一預訓練模型。
6.根據權利要求5所述的方法,其中,所述將所述第二特征輸入多視覺任務學習框架中,得到用于表征所述多視覺任務學習框架預訓練目標的總損失函數,包括:
根據所述多視覺任務學習框架中第一任務對應的第一損失函數、所述多視覺任務學習框架中第二任務對應的第二損失函數、及所述多視覺任務學習框架中第三任務對應的第三損失函數,得到所述總損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210638232.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種全周光LED燈絲燈
- 下一篇:一種托盤轉接的方法





