[發明專利]一種多模態多粒度實體識別系統及實體識別方法有效
| 申請號: | 202211263174.8 | 申請日: | 2022-10-14 |
| 公開(公告)號: | CN115545018B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 趙森棟;蔡沐禎;秦兵 | 申請(專利權)人: | 人民網股份有限公司;哈爾濱工業大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279 |
| 代理公司: | 哈爾濱市松花江聯合專利商標代理有限公司 23213 | 代理人: | 岳昕 |
| 地址: | 100026 北京市西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多模態多 粒度 實體 識別 系統 方法 | ||
1.一種多模態多粒度實體識別系統,其特征在于:所述系統包括:
訓練集獲取模塊、實體識別模型構建模塊、實體識別模型訓練模塊和預測模塊;
訓練集獲取模塊用于獲取匹配的圖片和文本訓練集;
實體識別模型構建模塊用于構建實體識別模型;
所述實體識別模型包括多模態多粒度實體識別模型、VGTR模型和CLIP模型;
所述VGTR模型為Visual?Grounding?with?Transformer模型;
所述CLIP模型為多模態預訓練模型;
多粒度包括粗粒度和細粒度;
多模態多粒度實體識別模型框架為:
圖片編碼器VIT和文本編碼器BERT并行作為多模態多粒度實體識別模型框架底層編碼器,Transformer作為上層編碼器,上層編碼器稱為多模態交互層,多模態交互層外再接一個條件隨機場CRF層;
實體識別模型訓練模塊用于將訓練集獲取模塊獲取的匹配的圖片和文本訓練集輸入實體識別模型構建模塊進行訓練,直至收斂,得到訓練好的實體識別模型;
預測模塊用于將待測的匹配圖片和文本輸入訓練好的實體識別模型中的多模態多粒度實體識別模型中,多模態多粒度實體識別模型輸出標注序列,獲得待測的匹配圖片和文本中的實體;
所述實體識別模型訓練模塊用于將訓練集獲取模塊獲取的匹配的圖片和文本訓練集輸入實體識別模型構建模塊進行訓練,直至收斂,得到訓練好的實體識別模型;具體過程為:
步驟三一、獲得多模態多粒度實體識別模型損失函數LCRF;
步驟三二、獲得VGTR模型的損失函數Ltask1;
步驟三三、獲得CLIP模型損失函數Ltask2;
步驟三四、重復執行步驟三一、步驟三二、步驟三三,直至收斂,得到訓練好的實體識別模型;
所述步驟三一中獲得多模態多粒度實體識別模型損失函數LCRF;具體過程為:
將訓練集中匹配的圖片和文本輸入多模態多粒度實體識別模型中,圖片經過圖片編碼器VIT,文本經過文本編碼器BERT,將圖片編碼器VIT輸出結果和文本編碼器BERT輸出結果輸入多模態交互層,多模態交互層輸出結果輸入條件隨機場CRF層用以計算損失函數LCRF;
所述損失函數LCRF的獲取方式為:
其中,Z(x)為:
式中,y為實體識別模型輸出的標注序列,yi為實體識別模型輸出的標注序列的第i個字母,yi-1為實體識別模型輸出的標注序列的第i-1個字母,x為給定輸入序列;i為序列中字母的序數,k為特征函數t的個數,l為特征函數s的個數;tk和sl是特征函數,μl和λk是對應的權值;Z(x)是規范化因子;
所述步驟三二中獲得VGTR模型的損失函數Ltask1;具體過程為:
將訓練集中匹配的圖片和文本輸入VGTR模型中,找到文本句子中每個實體對應的圖片區域;
將訓練集中匹配的圖片和文本輸入VGTR模型中,獲得VGTR模型中Ground?Encoder部分中的Visualbranch的注意力矩陣;
根據Visualbranch的注意力矩陣與找到文本句子中每個實體對應的圖片區域,截取出與實體對應的實體-圖片區域注意力分布矩陣;
所述VGTR模型為Visual?Groundingwith?Transformer模型;
計算實體-圖片區域注意力分布矩陣與多模態交互層輸出的文本與圖片注意力矩陣的差異,作為VGTR模型的損失函數Ltask1;
所述損失函數Ltask1的獲取方式為:
其中,width為VGTR模型輸出的實體對應的圖片區域寬度,height為VGTR模型輸出的實體對應的圖片區域高度;x為圖片的左下角橫坐標,y為圖片的左下角縱坐標;Xi′j為實體-圖片區域注意力分布矩陣第i′行第j列的數值;Yi′j為多模態多粒度實體識別模型中多模態交互層輸出的注意力矩陣第i′行第j列的數值;
所述步驟三三中獲得CLIP模型損失函數Ltask2;具體過程為:
將訓練集中匹配的圖片和文本中的文本輸入CLIP中的文本編碼器,輸出文本的向量;
計算CLIP模型中的文本編碼器輸出的文本向量和多模態交互層輸出的文本向量的差異,作為CLIP模型損失函數Ltask2;
所述損失函數Ltask2的獲取方式為:
其中,seq_len表示文本的長度,Di″表示CLIP模型中的文本編碼器輸出的第i″個文本的向量表示;Ci″表示多模態交互層輸出的第i″個文本的向量表示。
2.根據權利要求1所述的一種多模態多粒度實體識別系統的實體識別方法,其特征在于:所述方法具體過程為:
步驟一、獲取匹配的圖片和文本訓練集;
步驟二、構建實體識別模型;
所述實體識別模型包括多模態多粒度實體識別模型、VGTR模型和CLIP模型;
所述VGTR模型為Visual?Groundingwith?Transformer模型;
所述CLIP模型為多模態預訓練模型;
多粒度包括粗粒度和細粒度;
多模態多粒度實體識別模型框架為:
圖片編碼器VIT和文本編碼器BERT并行作為多模態多粒度實體識別模型框架底層編碼器,Transformer作為上層編碼器,上層編碼器稱為多模態交互層,多模態交互層外再接一個條件隨機場CRF層;
步驟三、將步驟一獲取的匹配的圖片和文本訓練集輸入步驟二構建的實體識別模型進行訓練,直至收斂,得到訓練好的實體識別模型;
步驟四、將待測的匹配圖片和文本輸入訓練好的實體識別模型中的多模態多粒度實體識別模型中,多模態多粒度實體識別模型輸出標注序列,獲得待測的匹配圖片和文本中的實體;
所述步驟三中將步驟一獲取的匹配的圖片和文本訓練集輸入步驟二構建的實體識別模型進行訓練,直至收斂,得到訓練好的實體識別模型;具體過程為:
步驟三一、獲得多模態多粒度實體識別模型損失函數LCRF;
步驟三二、獲得VGTR模型的損失函數Ltask1;
步驟三三、獲得CLIP模型損失函數Ltask2;
步驟三四、重復執行步驟三一、步驟三二、步驟三三,直至收斂,得到訓練好的實體識別模型;
所述步驟三一中獲得多模態多粒度實體識別模型損失函數LCRF;具體過程為:
將訓練集中匹配的圖片和文本輸入多模態多粒度實體識別模型中,圖片經過圖片編碼器VIT,文本經過文本編碼器BERT,將圖片編碼器VIT輸出結果和文本編碼器BERT輸出結果輸入多模態交互層,多模態交互層輸出結果輸入條件隨機場CRF層用以計算損失函數LCRF;
所述損失函數LCRF的獲取方式為:
其中,Z(x)為:
式中,y為實體識別模型輸出的標注序列,yi為實體識別模型輸出的標注序列的第i個字母,yi-1為實體識別模型輸出的標注序列的第i-1個字母,x為給定輸入序列;i為序列中字母的序數,k為特征函數t的個數,l為特征函數s的個數;tk和sl是特征函數,μl和λk是對應的權值;Z(x)是規范化因子;
所述步驟三二中獲得VGTR模型的損失函數Ltask1;具體過程為:
將訓練集中匹配的圖片和文本輸入VGTR模型中,找到文本句子中每個實體對應的圖片區域;
將訓練集中匹配的圖片和文本輸入VGTR模型中,獲得VGTR模型中Ground?Encoder部分中的Visualbranch的注意力矩陣;
根據Visualbranch的注意力矩陣與找到文本句子中每個實體對應的圖片區域,截取出與實體對應的實體-圖片區域注意力分布矩陣;
所述VGTR模型為Visual?Groundingwith?Transformer模型;
計算實體-圖片區域注意力分布矩陣與多模態交互層輸出的文本與圖片注意力矩陣的差異,作為VGTR模型的損失函數Ltask1;
所述損失函數Ltask1的獲取方式為:
其中,width為VGTR模型輸出的實體對應的圖片區域寬度,height為VGTR模型輸出的實體對應的圖片區域高度;x為圖片的左下角橫坐標,y為圖片的左下角縱坐標;Xi′j為實體-圖片區域注意力分布矩陣第i′行第j列的數值;Yi′j為多模態多粒度實體識別模型中多模態交互層輸出的注意力矩陣第i′行第j列的數值;
所述步驟三三中獲得CLIP模型損失函數Ltask2;具體過程為:
將訓練集中匹配的圖片和文本中的文本輸入CLIP中的文本編碼器,輸出文本的向量;
計算CLIP模型中的文本編碼器輸出的文本向量和多模態交互層輸出的文本向量的差異,作為CLIP模型損失函數Ltask2;
所述損失函數Ltask2的獲取方式為:
其中,seq_len表示文本的長度,Di″表示CLIP模型中的文本編碼器輸出的第i″個文本的向量表示;Ci″表示多模態交互層輸出的第i″個文本的向量表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民網股份有限公司;哈爾濱工業大學,未經人民網股份有限公司;哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211263174.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種采集機器人
- 下一篇:一種基于用戶行為的計算機軟件信息管理系統及方法





