[發明專利]一種文本糾錯方法、裝置、電子設備和介質有效
| 申請號: | 202210371375.3 | 申請日: | 2022-04-11 |
| 公開(公告)號: | CN114462356B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 李曉川;趙雅倩;李仁剛;郭振華;范寶余 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/232;G06K9/62;G06V10/74 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張倩 |
| 地址: | 215100 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 糾錯 方法 裝置 電子設備 介質 | ||
本申請實施例公開了一種文本糾錯方法、裝置、電子設備和介質,對獲取的待分析圖像進行圖像編碼,得到圖像特征;圖像特征反映了待分析圖像中與目標物強相關的特征。帶噪文本是以文字形式對目標物進行描述。對獲取的帶噪文本進行文本編碼,得到文本特征。按照設定的注意力機制,對圖像特征和文本特征進行特征對比,得到糾錯信號。糾錯信號包含了文本特征和圖像特征存在差異的特征,以及帶噪文本所表征的文本信息。利用訓練好的解碼器依據糾錯信號對初始文本標簽進行預測,可以得到糾錯后的文本信息。通過圖像所表征的特征對帶噪文本進行修正,可以得到包含正確信息的文本,提升了多模態任務的抗噪能力。
技術領域
本申請涉及人工智能技術領域,特別是涉及一種文本糾錯方法、裝置、電子設備和計算機可讀存儲介質。
背景技術
近年來,多模態(Multi Modal,MM)成為人工智能領域中新興的研究方向,像視覺常識推理(Visual Commonsense Reasoning,VCR)、視覺問答(Visual QuestionAnswering,VQA)等領域均成為行業重點研究課題。然而在多模態領域,現有課題基本都是假定人類語言在多模態過程中是絕對正確的。然而對現實世界中人類而言,口誤在所難免。通過實驗發現,將現有多模態任務中的人類文本替換為口誤文本時,原有模型的性能會大幅衰減。
以依據文本確定出圖像中文本所描述的物品在圖像中的位置為例,經實現測試發現,當輸入為標準文本時,模型可以輸出正確的坐標框;當輸入為帶噪的文本即模擬人類語言口誤所產生的文本時,模型輸出的坐標框出現了錯誤。在真實世界中,由于口誤造成的文本語言錯誤是在所難免的。因此對于多模態任務而言,模型對文本語言錯誤的抗噪能力成為本領域亟待研究的課題之一。
可見,如何提升多模態任務的抗噪能力,是本領域技術人員需要解決的問題。
發明內容
本申請實施例的目的是提供一種文本糾錯方法、裝置、電子設備和計算機可讀存儲介質,可以提升多模態任務的抗噪能力。
為解決上述技術問題,本申請實施例提供一種文本糾錯方法,包括:
對獲取的待分析圖像進行圖像編碼,得到圖像特征;
對獲取的帶噪文本進行文本編碼,得到文本特征;
按照設定的注意力機制,對所述圖像特征和所述文本特征進行特征對比,得到糾錯信號;
利用訓練好的解碼器依據所述糾錯信號對初始文本標簽進行預測,得到糾錯后的文本信息。
可選地,所述注意力機制包括自注意力機制和跨注意力機制;
所述按照設定的注意力機制,對所述圖像特征和所述文本特征進行特征對比,得到糾錯信號包括:
按照所述自注意力機制,對所述圖像特征和所述文本特征進行關聯性分析,得到對齊特征;其中,所述對齊特征包括所述圖像特征和所述文本特征的對應關系;
按照所述自注意力機制和所述跨注意力機制,對所述對齊特征和所述文本特征進行分析,得到糾錯信號。
可選地,所述按照所述自注意力機制,對所述圖像特征和所述文本特征進行關聯性分析,得到對齊特征包括:
按照如下公式,確定出所述圖像特征和所述文本特征的自注意力向量;其中,所述自注意力向量包含所述圖像特征的每維特征與所述文本特征的每維特征的關聯特征;
;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210371375.3/2.html,轉載請聲明來源鉆瓜專利網。





