[發明專利]一種數據處理方法、裝置、電子設備及存儲介質在審
| 申請號: | 202210624687.0 | 申請日: | 2022-06-02 |
| 公開(公告)號: | CN115115913A | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 殷緒成;谷偉波;王少英;高宏宇;王紅法;劉威;朱超;劉孟寅 | 申請(專利權)人: | 北京科技大學;深圳市騰訊計算機系統有限公司 |
| 主分類號: | G06V10/80 | 分類號: | G06V10/80;G06V10/424;G06V10/75;G06V10/774;G06V10/82;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 賈允 |
| 地址: | 100000*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 電子設備 存儲 介質 | ||
本發明公開了一種數據處理方法、裝置、電子設備及存儲介質,該方法包括:獲取待處理文本的文本特征以及待處理圖像的圖像特征;所述待處理文本為所述待處理圖像對應的描述文本;基于所述文本特征確定所述圖像特征中的關鍵圖像特征;所述關鍵圖像特征為在所述文本特征中存在對應語義信息的圖像特征;基于所述文本特征和所述關鍵圖像特征進行融合處理得到多模態特征,將所述多模態特征編碼到預設語義空間,得到多模態特征編碼向量;基于所述多模態特征編碼向量進行序列標注處理,得到目標對象標簽序列;所述目標對象標簽序列用于對所述待處理文本進行結構化處理以得到目標結構化數據。本發明提高了文本結構化處理結果的準確性。
技術領域
本發明涉及互聯網技術領域,特別涉及一種數據處理方法、裝置、電子設備及存儲介質。
背景技術
隨著互聯網技術的發展,越來越多的信息采用包括視覺(如圖像)、文本等多種模態方式來展示。在一些應用場景中,常基于文本以及對應的圖像將非結構化的文本描述轉化為結構化的數據,如“屬性-屬性值”,以用于后續如問答、推薦等內容理解系統。
相關技術中,對于文本以及該文本對應的圖像通常是直接將圖像信息與文本信息進行簡單融合,并沒有考慮圖像信息所代表的顏色、形狀、大小等語言信息,無法實現圖像信息中所表征語言信息與相同含義的文本特征的對齊,降低了融合效果,進而導致相關技術中文本結構化處理結果的準確性較差。
發明內容
為了解決現有技術的問題,本發明實施例提供了一種數據處理方法、裝置、電子設備及存儲介質。所述技術方案如下:
一方面,提供了一種數據處理方法,所述方法包括:
獲取待處理文本的文本特征以及待處理圖像的圖像特征;所述待處理文本為所述待處理圖像對應的描述文本;
基于所述文本特征確定所述圖像特征中的關鍵圖像特征;所述關鍵圖像特征為在所述文本特征中存在對應語義信息的圖像特征;
基于所述文本特征和所述關鍵圖像特征進行融合處理得到多模態特征,將所述多模態特征編碼到預設語義空間,得到多模態特征編碼向量;
基于所述多模態特征編碼向量進行序列標注處理,得到目標對象標簽序列;所述目標對象標簽序列用于對所述待處理文本進行結構化處理以得到目標結構化數據。
另一方面,提供了一種數據處理裝置,所述裝置包括:
數據獲取模塊,用于獲取待處理文本的文本特征以及待處理圖像的圖像特征;所述待處理文本為所述待處理圖像對應的描述文本;
關鍵圖像特征確定模塊,用于基于所述文本特征確定所述圖像特征中的關鍵圖像特征;所述關鍵圖像特征為在所述文本特征中存在對應語義信息的圖像特征;
融合模塊,用于基于所述文本特征和所述關鍵圖像特征進行融合處理得到多模態特征,將所述多模態特征編碼到預設語義空間,得到多模態特征編碼向量;
序列標注模塊,用于基于所述多模態特征編碼向量進行序列標注處理,得到目標對象標簽序列;所述目標對象標簽序列用于對所述待處理文本進行結構化處理以得到目標結構化數據。
在一個示例性的實施方式中,所述關鍵圖像特征確定模塊,包括:
交叉注意力權重確定模塊,用于基于所述文本特征和所述圖像特征確定交叉注意力權重;
關鍵圖像特征確定子模塊,用于基于所述交叉注意力權重對所述圖像特征進行調整,得到關鍵圖像特征。
在一個示例性的實施方式中,所述融合模塊,包括:
自注意力權重確定模塊,用于基于所述文本特征確定自注意力權重;
關鍵文本特征確定模塊,用于基于所述自注意力權重對所述文本特征進行調整,得到關鍵文本特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學;深圳市騰訊計算機系統有限公司,未經北京科技大學;深圳市騰訊計算機系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210624687.0/2.html,轉載請聲明來源鉆瓜專利網。





