[發明專利]利用引入了語義信息的詞向量進行機器閱讀理解的方法有效
| 申請號: | 202010719374.4 | 申請日: | 2020-07-23 |
| 公開(公告)號: | CN111966797B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 魏建國;孔維坤 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/36;G06N3/0442;G06N3/045;G06N3/047;G06N3/048 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 引入 語義 信息 向量 進行 機器 閱讀 理解 方法 | ||
1.一種利用引入了語義信息的詞向量進行機器閱讀理解的方法,其特征是,步驟如下:
步驟一、嵌入:把機器閱讀理解模型所涉及到的上下文和問題中的詞均使用詞向量表示;
步驟二、使用Retrofitting對詞向量進行微調,得到詞向量表示的上下文序和問題序列,Retrofitting是一種通過鼓勵具有相互關系的詞獲得更相似的向量表示,來利用語義詞典中的關系信息優化向量空間表示的方法,其中,Retrofitting詳細過程為:
假設有V={w1,w2,...,wn}為機器閱讀理解數據集詞表,w1為詞表V中的第1個詞,w2為詞表V中的第2個詞,依次類推,wn為詞表V中的第n個詞;
無向圖Ω=(V,E)為編碼了詞表V中詞與詞之間語義信息的本體,E為詞表V中單詞之間邊的集合,Ω為語義詞典,其形式為無向圖,詞與詞之間的語義信息來自于語義詞典,
詞wi與詞wj之間的邊表示詞wi與詞wj之間存在語義關系,wi與wj為邊集合E中的每一條邊所連接的兩個詞;
qi代表第i個詞wi的詞向量,Q是由所有詞的詞向量的集合,
那么,Retrofitting的微調方程定義為:
αi、βij分別為需要訓練的參數,表示wi未經處的詞向量,qj表示在語義詞典中與詞wi有語義關系的詞的詞向量;
Retrofitting過程的損失函數定義為:
αi、βij分別為需要訓練的參數,代表算法在詞向量集合Q上的損失函數;
步驟三、編碼:引入詞匯信息、句法信息,包括關鍵詞是否完全匹配,詞性標簽、實體標簽、問題的類別,分別對上下文和問題序列進行編碼,得到上下文表示和問題表示;
步驟四、基于迭代對編碼后的上下文和問題序列進行交互:引入注意力機制來完成文章級別的自對齊,得到充分感知的上下文表示fully-aware?context?representation;
步驟五、生成答案:從步驟四得到的fully-aware?context?representation中提取答案片段的起始位置和結束位置。
2.如權利要求1所述的利用引入了語義信息的詞向量進行機器閱讀理解的方法,其特征是,詳細步驟如下:
步驟一、嵌入:首先根據所采用的SQuAD(斯坦福大學閱讀理解數據集)數據庫統計出所有上下文和問題中的詞,形成一個詞表V={w1,w2,...,wn},再從Word2Vec和GloVe讀取預訓練的詞向量,Word2Vec是一種由跳字模型或者連續詞袋模型訓練的詞向量集合,GloVe是一種基于全局詞頻統計的詞表征工具,將詞表中的第i個詞wi逐一映射到V中與之對應的詞向量qi,得到詞向量的集合Q;
步驟二、使用Retrofitting技術對詞向量進行微調的詳細過程為:
首先按照語義詞典特有的結構讀入語義詞典Ω=(V,E),在模型中,使用無向圖來編碼詞表中的詞以及詞與詞之間的關系,如果詞wi與詞wj之間存在邊那么詞wi與詞wj之間存在著某種語義關系;
讀入語義詞典資源以后,按照Retrofitting的微調公式:
將知識信息引入到詞向量中來,其中表示wi未經處的詞向量,qj表示在語義詞典中與詞wi有語義關系的詞的詞向量;
通過最小化損失函數:
來訓練Retrofitting;
步驟三、編碼的詳細過程為:
經過Retrofitting處理后,得到用改進的詞向量表示的問題序列和上下文序列WC代表用詞向量表示的上下文序列,是該序列中的第1個詞,是該序列中的第m個詞,WQ代表用詞向量表示的問題序列,是該序列中的第1個詞,是該序列中的第n個詞,在加入詞性標注POS嵌入和命名實體識別結果NER嵌入特征之后,分別得到問題和上下文的中間結果和使用共享權重的雙向長短期記憶網絡序列中的每個詞其進行建模:
BiLSTM為雙向長短期記憶網絡,vi為問題中第i個詞經過BiLSTM的處理結果,uj為上下文中第j個詞經過BiLSTM的處理結果;
得到編碼后的上下文序列V和問題序列U,分別為:
步驟四、基于迭代對編碼后的上下文和問題序列進行交互步驟包括三部分,分別是交互式上下文-問題對齊器、上下文自對齊器和用于建模上下文表示的證據收集器,其中:
上下文-問題對齊器是利用:
Eij=f(vi,uj)=relu(Wuu)Trelu(Wuu)
Eij為上下文對齊結果,f(vi,uj)代表vi、uj的對齊函數,relu代表線性整流單元,計算得到相似度矩陣為維度為n和m的二維空間,用于計算基于注意力的問題向量softmax為歸一化指數函數,E:j為相似度矩陣E的第j列,采用啟發式的融合函數o=fusion(x,y)將注意力信息高效地融合到上下文中,o=fusion(x,y)通過以下步驟實現:
sigmoid為神經網絡激活函數,o為融合了注意力信息的上下文表示,g均為中間處理結果,利用該函數,對進行處理:
從而得到問題相關的上下文表示:
H=[h1,h2,...,hm]
利用公式
Bij=1{i≠j}f(hi,hj)
計算得到相似度矩陣用于計算基于注意力的上下文表示:
hj=H·softmax(B:j)
再利用融合函數得到基于自注意力的上下文表示:
Z=[z1,z2,...,zm]
最后,利用一個雙向長短期記憶網絡來做證據收集:
R=[r1,r2,...,rm]=BiLSTM(Z)
為了增強捕獲上下文與問題之間復雜交互的能力,使用再注意力機制來完成上下文和問題之間的迭代對齊:
R1,Z1,E1,B1=align1(U,V)
R2,Z2,E2,B2=align2(R1,V,E1,B1)
R3,Z3,E3,B3=align3(R2,V,E2,B2,Z1,Z2)
align1、align2、align3分別為第一、第二、第三步的對齊函數;最終的完全感知的上下文向量R3是通過在最后的雙向長短期記憶網絡中添加一個殘差連接得到的:
步驟五、生成答案:
使用指針網絡的變體來實現答案生成,將問題表示V總結成固定長度的摘要向量s:
再通過下式分別計算答案在上下文中的起始位置pstart(i)和相應大的結束位置pend(j|i):
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010719374.4/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





