[發明專利]多模態特征的融合方法、裝置、設備、介質及產品在審
| 申請號: | 202210151570.5 | 申請日: | 2022-02-18 |
| 公開(公告)號: | CN114663733A | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 余威;王昆 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06V10/80 | 分類號: | G06V10/80;G06V10/82;G06V30/19;G06V20/62;G06F16/29;G06N3/04;G06K9/62 |
| 代理公司: | 北京鉦霖知識產權代理有限公司 11722 | 代理人: | 李英艷;楊繼成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多模態 特征 融合 方法 裝置 設備 介質 產品 | ||
1.一種多模態特征的融合方法,包括:
獲取同一圖像的多種模態特征;
對所述多種模態特征中的每種模態特征進行編碼;
采用多頭注意力機制,對編碼得到的所有編碼特征進行特征交叉融合,得到多個初始融合特征;
將所述多個初始融合特征再次進行融合,得到目標融合特征。
2.根據權利要求1所述的方法,其中,所述采用多頭注意力機制,對編碼得到的所有編碼特征進行特征交叉融合,包括:
若模態特征的數量小于或等于預設數量,則將編碼得到的所有編碼特征直接采用多頭注意力機制,進行特征交叉融合。
3.根據權利要求1所述的方法,其中,所述采用多頭注意力機制,對編碼得到的所有編碼特征進行特征交叉融合,包括:
若模態特征的數量大于預設數量,則對模態特征進行編碼得到的所有編碼特征,按照所述預設數量進行組合;
將組合后得到的所有組合結果中的各組合結果,分別采用多頭注意力機制,進行特征交叉融合。
4.根據權利要求1-3中任意一項所述的方法,其中,所述模態特征包括:
圖像特征,文本特征,圖像中興趣點POI坐標,拍攝圖像的拍攝角度,拍攝圖像的時間和/或圖像所在區域。
5.根據權利要求4所述的方法,其中,所述對所述多種模態特征中的每種模態特征進行編碼,包括:
若所述模態特征為POI坐標,則利用GeoHash對所述POI坐標進行向量編碼,并對編碼得到的向量進行向量升維;
基于向量升維后的編碼向量,對所述POI坐標進行編碼。
6.根據權利要求4所述的方法,其中,所述對所述多種模態特征中的每種模態特征進行編碼,包括:
若所述模態特征為除圖像特征和POI坐標外的其他模態特征,則利用word2Vec對所述其他模態特征進行編碼。
7.根據權利要求1-3中任意一項所述的方法,其中,所述將所述多個初始融合特征再次進行融合,得到目標融合特征,包括:
利用多層感知機對所述多個初始融合特征進行再次融合,得到目標融合特征。
8.一種多模態特征的融合裝置,包括:
獲取單元,用于獲取同一圖像的多種模態特征;
編碼單元,用于對所述多種模態特征中的每種模態特征進行編碼;
第一融合單元,用于采用多頭注意力機制,對編碼得到的所有編碼特征進行特征交叉融合,得到多個初始融合特征;
第二融合單元,用于將所述多個初始融合特征再次進行融合,得到目標融合特征。
9.根據權利要求8所述的裝置,其中,所述第一融合單元用于:
若模態特征的數量小于或等于預設數量,則將編碼得到的所有編碼特征直接采用多頭注意力機制,進行特征交叉融合。
10.根據權利要求8所述的裝置,其中,所述第一融合單元還用于:
若模態特征的數量大于預設數量,則對模態特征進行編碼得到的所有編碼特征,按照所述預設數量進行組合;
將組合后得到的所有組合結果中的各組合結果,分別采用多頭注意力機制,進行特征交叉融合。
11.根據權利要求8-10中任意一項所述的裝置,其中,所述模態特征包括:
圖像特征,文本特征,圖像中興趣點POI坐標,拍攝圖像的拍攝角度,拍攝圖像的時間和/或圖像所在區域。
12.根據權利要求11所述的裝置,其中,所述編碼單元,用于:
若所述模態特征為POI坐標,則利用GeoHash對所述POI坐標進行向量編碼,并對編碼得到的向量進行向量升維;
基于向量升維后的編碼向量,對所述POI坐標進行編碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210151570.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:濕法VOC治理系統及其方法
- 下一篇:一種米飯自動分裝裝置





