[發明專利]一種數據處理方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202011261127.0 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112231347A | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 楊潔;陳紹毅;廖夢;徐進;王志平 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/2457 | 分類號: | G06F16/2457;G06F16/735;G06N3/04;G06N20/20 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;杜維 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種數據處理方法,其特征在于,包括:
獲取用于將搜索業務數據和待匹配業務數據進行匹配的多模態匹配模型;所述多模態匹配模型包括特征學習器以及預測生成器;所述待匹配業務數據中包括第一模態業務數據和第二模態業務數據;
通過所述特征學習器中的文本特征學習器,對所述搜索業務數據的第一特征提取向量和所述第一模態業務數據的第二特征提取向量進行第一學習處理,得到第一學習結果;所述第一學習結果中的學習向量是由文本全局信息向量和文本局部細粒度向量所得到的;所述文本全局信息向量是基于所述文本特征學習器的第一全局特征學習層中的第一多尺度卷積核所得到的;所述文本局部細粒度向量是基于所述文本特征學習器的第一局部特征學習層所得到的;
通過所述特征學習器中的多模態特征學習器,對所述第一特征提取向量和所述第二模態業務數據的第三特征提取向量進行第二學習處理,得到第二學習結果;所述第二學習結果中的學習向量是由多模態全局信息向量和多模態局部細粒度向量所得到的;所述多模態全局信息向量是基于所述多模態特征學習器的第二全局特征學習層中的第二多尺度卷積核所得到的;所述多模態局部細粒度向量是基于所述多模態特征學習器的第二局部特征學習層所得到的;
通過所述預測生成器將所述第一學習結果中的學習向量與所述第二學習結果中的學習向量進行拼接處理,得到向量拼接結果;所述向量拼接結果用于指示對所述搜索業務數據和所述待匹配業務數據之間的匹配度進行預測。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取用戶終端發送的包括搜索業務數據的業務搜索請求;所述業務搜索請求為所述用戶終端在應用客戶端中響應針對搜索顯示界面中的搜索控件的觸發操作時所生成的;所述搜索業務數據是由所述用戶終端從所述搜索顯示界面的搜索區域中所獲取到的;
基于所述業務搜索請求,從視頻數據庫中獲取具有第一業務類型的業務數據,將具有所述第一業務類型的業務數據作為第一模態業務數據,以及從所述視頻數據庫中獲取具有第二業務類型的業務數據,將具有所述第二業務類型的業務數據作為第二模態業務數據;所述第一業務類型不同于所述第二業務類型;
將所述第一模態業務數據和所述第二模態業務數據所共同映射的業務數據作為待匹配業務數據。
3.根據權利要求2所述的方法,其特征在于,若所述搜索業務數據的業務類型為所述第一業務類型,且所述第一業務類型屬于文本類型,則所述第二業務類型包括以下至少一種業務類型:視頻類型或者圖片類型;所述多模態匹配模型包括特征提取器;所述特征提取器包括詞向量提取網絡和殘差網絡;
所述方法還包括:
將所述搜索業務數據和所述第一模態業務數據作為待編碼文本數據;
通過所述詞向量提取網絡,從所述待編碼文本數據中提取得到特征提取向量;所述特征提取向量包括從所述搜索業務數據中所提取到的第一特征提取向量,以及從所述第一模態業務數據中所提取到的第二特征提取向量;
對所述第二模態業務數據進行抽幀處理得到視頻幀,將所述視頻幀輸入至所述殘差網絡中,由所述殘差網絡提取得到所述第二模態業務數據對應的第三特征提取向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011261127.0/1.html,轉載請聲明來源鉆瓜專利網。





