[發明專利]一種基于文本-圖片關系預訓練的多模態推文命名實體識別的方法在審
| 申請號: | 202011116968.2 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112257445A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 翁芳勝;孫霖;王躋權;孫宇軒 | 申請(專利權)人: | 浙大城市學院 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 杭州九洲專利事務所有限公司 33101 | 代理人: | 張羽振 |
| 地址: | 310015 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 圖片 關系 訓練 多模態推文 命名 實體 識別 方法 | ||
1.一種基于文本-圖片關系預訓練的多模態推文命名實體識別的方法,其特征在于,包括以下步驟:
步驟1、大規模數據收集:將推特100k數據集用作未標記多模式語料庫;將彭博文本-圖像關系數據集中的圖文關系合并成文本-圖像相關關系和文本-圖像無關關系,并按照固定比例將彭博文本-圖像關系數據集劃分為訓練集和測試集;并選用復旦大學的多模態推文數據集和Snap Research的MNER Twitter數據集作為數據基礎;
步驟2、建立關系推斷和視覺注意的預訓練多模態網絡模型,關系推斷和視覺注意的預訓練多模態網絡模型包括:文本-圖像關系門控網絡、注意力導向的視覺上下文網絡和視覺語言上下文網絡;
步驟3、預訓練任務;
步驟4、將預訓練多模態網絡模型用于多模態NER任務:使用biLSTM-CRF模型作為命名實體識別的基準模型來測試預訓練多模態模型;將詞嵌入ek輸入biLSTM網絡,條件隨機場使用每個詞嵌入ek的biLSTM隱藏向量ht來標記帶有實體標簽的序列;使用預訓練多模態網絡模型時,輸入文本圖像對后,將視覺語言上下文網絡中每個嵌入的前向LSTM網絡和后向LSTM網絡的隱藏輸出連接成為視覺語言上下文嵌入進行多模態NER任務時,將詞嵌入ek替換成
2.根據權利要求1所述基于文本-圖片關系預訓練的多模態推文命名實體識別的方法,其特征在于:步驟2具體包括如下步驟:
步驟2.1、建立文本-圖像關系門控網絡:用基于語言和視覺特征融合的全連接層來完成文本-圖像關系分類;從biLSTM網絡中學習推文的語言特征;
步驟2.1.1、將單詞和單詞的字符嵌入的串聯聯合輸入biLSTM網絡,然后把bilSTM網絡的前向輸出和后向輸出串聯起來作為編碼后的文本向量其中dt為文本向量ft的維度大小,1×dt為文本向量ft所屬的向量空間大小;
步驟2.1.2、使用ResNet從圖像中提取視覺特征fv;根據ResNet中最后一個卷積層的輸出尺寸,在固定區域上使用平均池,并將整個圖像表示為固定維數的向量fv;
步驟2.1.3、最后將編碼后的文本向量和圖像向量做點乘ft⊙fv,然后輸入到FC層和softmax層,獲得二分類和視覺上下文門控的分數sG;
步驟2.2、建立注意力導向的視覺上下文網絡;
步驟2.2.1、設為給定圖像的區域視覺特征,其中i=1,...,m,j=1,...n,r為區域特征,dv為維度大小,m×n×dv為ResNet中最后一個卷積層的輸出尺寸,m×n為圖像中的區域個數;
步驟2.2.2、使用縮放點乘注意力來捕捉與語言語境相關的局部視覺特征,縮放點乘注意力的定義為:
上式中,矩陣Q、矩陣K和矩陣V分別代表查詢、鍵和值;dk是鍵的維數;
步驟2.2.3、使用語言查詢向量Qs=ft作為查詢,區域視覺特征Vr作為鍵和值;通過線性投影將語言查詢向量Qs和區域視覺特征Vr轉化為同一維度:和
步驟2.2.4、計算語言注意力其中Qs為語言查詢向量,為轉化維度后的語言查詢向量Qs,為轉化維度后的區域視覺特征Vr;并將單路注意擴展到多路注意力;將局部視覺上下文Vc的輸出定義為:
上式(2)至式(3)中,Qs為語言查詢向量,為轉化維度后的語言查詢向量Qs,為轉化維度后的區域視覺特征Vr,Vc為局部視覺上下文,headi為局部視覺上下文的輸出,i=1,...,h,h為局部視覺上下文輸出的總個數;
步驟2.3、建立視覺語言上下文網絡,使用biLSTM網絡在推特100k數據集上學習視覺語言上下文嵌入;
步驟2.3.1、首先給定一個視覺向量和一個長度為T的序列{wt},t=1,...,T,其中sG為視覺上下文門控的分數,Vc為局部視覺上下文,T為序列{wt}的長度;
步驟2.3.2、使用一個前向LSTM網絡在(w1,...wt-1)上預測序列wt,在t=0時刻,前向序列輸入為視覺向量同時使用一個反向LSTM網絡在(wt+1,...,wT)上預測序列wt,在t=T+1時刻,反向序列的輸入為視覺向量
步驟2.3.3、在單詞序列中添加了詞嵌入[BOS]來表示開始,還添加了詞嵌入[EOS]表示結束,將序列表示成([BOS],w1,...,wT,[EOS]);在前向預測中用視覺特征代替[BOS],在后向預測中用視覺特征代替[EOS];將單詞和單詞的字符嵌入的串聯作為LSTM網絡的輸入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙大城市學院,未經浙大城市學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011116968.2/1.html,轉載請聲明來源鉆瓜專利網。





