[發明專利]一種基于細粒度詞表示模型的序列標注模型及方法有效
| 申請號: | 201810120922.4 | 申請日: | 2018-01-30 |
| 公開(公告)號: | CN108460013B | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 張紹武;林廣和;楊亮;林鴻飛 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 細粒度 詞表 模型 序列 標注 方法 | ||
1.一種基于細粒度詞表示模型的序列標注模型的構建方法,其特征在于,一種完全基于Attention機制的字符級詞表示模型Finger來替代BiLSTM、CNN字符級模型,將Finger作為BiLSTM-CRF模型的擴展,構造了新的序列標注模型Finger-BiLSTM-CRF;該序列標注模型主要由特征表示層、BiLSTM和CRF層3部分構成;
(1)特征表示層:主要由詞向量層和字符特征層組成;字符特征層由字符向量層和構建在字符向量層之上的基于注意力機制的Finger模型組成;詞向量層和字符向量層分別接受單詞和字符作為輸入,分別將離散高維的獨熱表示映射到各自的稠密連續的低維特征空間中;Finger則將單詞轉換為字符序列表示,通過Attention機制建立形態學信息與字符信息間的關聯,構成與詞內結構相關的字符級向量;最后,將詞向量和字符級向量進行拼接以表示單詞在特定語義空間下的特征;
所述的Finger模型如下:
首先引入一個形態學信息矩陣finu表示形態學特征類別數,mk表示第k類形態學信息特征向量;同時,采用公式(1)計算相關性得分向量Gk,通過雙線性操作來捕獲形態學信息mk與輸入字符序列矩陣C之間的關聯信息:
Gk=mkTUC (1)
其中,U是待訓練權值矩陣;
隨后,根據公式(2)來處理相關性得分向量Gk,以獲得該類形態學信息的Attention權重向量αk:
其中Gk,j,αk,j分別表示形態學信息mk與輸入的第j個字符間的相關性得分和對應權重;
接著,利用公式(3)將Attention權重向量αk和輸入字符序列向量C相乘來表示形態學上強調的字符表示:
然后,根據公式(4),通過一個非線性變換來表示第i類形態學特征對應的字符表示:
其中,非線性激活函數f為雙曲正切函數;
最后,構成單詞wn的字符級向量
(2)BiLSTM:由正向和反向的長短時記憶網絡LSTM組成;正向和反向LSTM接收特征表示層的輸出特征作為輸入,分別編碼當前時刻的上文和下文信息;兩者的編碼信息合并構成待解碼的得分信息;
(3)CRF:CRF層接受BiLSTM的輸出得分作為輸入,同時引入轉移得分矩陣,根據序列得分選擇全局最優的標簽序列。
2.一種根據權利要求1所述的構建方法得到的序列標注模型進行序列標注任務的方法,其特征在于,步驟如下:
第一步,特征表示階段
特征表示層將輸入的單詞序列映射為實值的特征向量,特征向量捕獲單詞的句法信息、語義信息和形態學信息;定義一個固定大小的詞典Vwrd和一個固定大小的字符集Vchr;給定長度為N的句子{w1,w2,...,wN},將句子中每個單詞wn映射為由詞向量和字符級向量拼接而成的詞表示其中詞向量捕獲單詞的句法信息和語義信息,字符級向量表達詞形信息;
1)詞向量層
詞向量矩陣中的第i列代表詞典中第i個單詞的詞向量;如公式(1)所示,通過矩陣-向量乘法將單詞wn映射為向量
其中,向量是維數為|Vwrd|的獨熱表示;矩陣Wwrd為待學習參數,詞向量維度dwrd為超參數;
2)字符向量層
給定一個由M個字符{c1,c2,...,cM}構成的單詞wn,先將每個字符cm映射為字符向量和詞向量層的表示過程是相同的,字符向量矩陣中的第j列代表字符集中的第j個字符的字符向量;如公式(2)所示,通過矩陣-向量乘法將字符cm映射為向量
其中,向量是長度為|Vchr|的獨熱表示;矩陣Wchr為待學習參數,詞向量維度dchr為超參數;
單詞的字符序列經過上述的映射,生成字符向量序列作為后續模型的輸入;
3)Finger模型
首先引入一個形態學信息矩陣finu表示形態學特征類別數,mk表示第k類形態學信息特征向量;同時,采用公式(3)計算相關性得分向量Gk,通過雙線性操作來捕獲形態學信息mk與輸入字符序列矩陣C之間的關聯信息:
Gk=mkTUC (3)
其中,U是待訓練權值矩陣;
隨后,根據公式(4)來處理相關性得分向量Gk,以獲得該類形態學信息的Attention權重向量αk:
其中Gk,j,αk,j分別表示形態學信息mk與輸入的第j個字符間的相關性得分和對應權重;
接著,利用公式(5)將Attention權重向量αk和輸入字符序列向量C相乘來表示形態學上強調的字符表示:
然后,根據公式(6),通過一個非線性變換來表示第i類形態學特征對應的字符表示:
其中,非線性激活函數f為雙曲正切函數;
最后,構成單詞wn的字符級向量rwch=(r1,r2,...,rfinu);
第二步,編碼階段
采用LSTM實現如下:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (7)
ct=(1-it)⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc) (8)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo) (9)
ht=ot⊙tanh(ct) (10)
其中,W為層間的權重矩陣,b為偏置向量,σ為按位sigmoid函數,i,o和c分別對應輸入門、輸出門和記憶單元;⊙表示按位乘法;
為了充分考慮序列中的上下文信息,選擇BiLSTM進行上下文信息編碼;BiLSTM由兩個獨立的LSTM構成,其中一個LSTM在某一時刻t沿著正向時序獲得上文信息另一個LSTM沿著逆向時序獲得下文信息將每個時刻上的兩個LSTM的隱藏層向量連接起來,形成BiLSTM在該時刻的輸出ht表示當前時刻t的上下文信息;
第三步,解碼階段
采用Collobert提出的句級對數似然函數,即CRF層,并考慮標簽序列的全局信息,具體細節如下:
設定引入轉移得分矩陣A,矩陣元素Ai,j表示標簽i轉移到標簽j的轉移得分,令y0,yn+1為句中的起始標簽和終止標簽,標簽種類為k,則設句子長度為n,則輸出層的得分矩陣為矩陣元素Pi,j表示第i個詞在第j個標簽下的輸出得分;
給定輸入句子X=(x1,x2,...,xn),輸出標簽序列y=(y1,y2,...yn),則該標簽序列的總得分為
對所有可能的序列路徑進行歸一化,產生關于輸出序列y的概率分布:
在訓練過程中,最大化關于正確標簽序列y*的對數概率:
從上式可知:采用句級似然函數的目的是鼓勵模型生成正確的標簽序列;在解碼階段,預測總得分最高的序列作為最優序列,即:
在預測階段,采用維特比算法來求解最優序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810120922.4/1.html,轉載請聲明來源鉆瓜專利網。





