[發明專利]基于動態窗口自注意力機制提取語義特征的槽填充方法有效
| 申請號: | 201910084904.X | 申請日: | 2019-01-29 |
| 公開(公告)號: | CN109918503B | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 馬千里;閆江月;田帥 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 動態 窗口 注意力 機制 提取 語義 特征 填充 方法 | ||
1.一種基于動態窗口自注意力機制提取語義特征的槽填充方法,其特征在于,所述的槽填充方法包括下列步驟:
S1、將文本數據中的每個句子切分為詞;
S2、將切分句子得到的詞w=(w1,w2,…wT)用詞嵌入向量表示,其中T為詞的個數,
S3、選定一個窗口大小L,對于每個詞,利用當前詞的詞嵌入向量計算該詞需要選擇當前窗口內的信息,得到當前詞的上下文特征表示其中t為當前詞的下標,所述的步驟S3包括:
S31、將當前詞的詞嵌入向量和窗口內詞的詞嵌入向量輸入到下式中,產生動態窗口概率分布分布每個元素
其中,函數matmul(·)代表矩陣乘法,
S32、在訓練和測試時分別利用計算得到變量maskt的值為1時表示選中第t個詞,maskt的值為0時表示沒有選中第t個詞;
S33、利用得到經過篩選后的窗口內的詞表示也即是當前詞的上下文特征表示,其中,⊙為對應元素相乘二元運算符;
S4、對于每一個詞,利用該詞的上下文特征表示和詞向量根據自注意力機制計算當前詞的融合特征表示
S5、對于每一個詞,將當前詞的融合特征表示和詞向量輸入到雙向循環神經網絡中進行分類,輸出結果。
2.根據權利要求1所述的基于動態窗口自注意力機制提取語義特征的槽填充方法,其特征在于,所述的步驟S32中,在訓練時實施過程如下:
從分布Gumbel(0,1)=-log(-log(Uniform(0,1)))中產生隨機變量定義每個為g的第t維的切片向量,其中Uniform(0,1)為正態分布;
定義溫度超參數τ,定義變量它的每一個分量是一個近似0或者1的數,[rt-L/2,…,rt-1,rt+1,…,rt+L/2]即可表示為窗口內詞是否加入當前詞的語義表示中,由下式計算得到rt的第i個分量
其中,是pt的第i個分量,pt是P的第t個分量,是gt的第i個分量,exp(x)是指數函數;
計算的值,計算公式如下:
其中,matmul(·)代表矩陣乘法。
3.根據權利要求1所述的基于動態窗口自注意力機制提取語義特征的槽填充方法,其特征在于,所述的步驟S32中,在預測時實施過程如下:
從多項式分布Multinomial(·)中采樣產生其中,
mask~Multinomial(log(P))。
4.根據權利要求1所述的基于動態窗口自注意力機制提取語義特征的槽填充方法,其特征在于,所述的步驟S4實施過程如下:
其中,matmul(·)代表矩陣乘法,indicator為和矩陣乘法結果張量同維的張量,矩陣乘法結果為0的元素,在indicator中對應位置元素為-∞,否則為0。
5.根據權利要求1所述的基于動態窗口自注意力機制提取語義特征的槽填充方法,其特征在于,所述的步驟S5包括:
S51、遍歷每一個詞,將當前詞的融合特征和當前詞向量進行拼接得到
S52、將得到的輸入到雙向循環神經網絡中進行分類,得到輸出結果[o1,o2,…,oT]。
6.根據權利要求1至5任一所述的基于動態窗口自注意力機制提取語義特征的槽填充方法,其特征在于,所述的文本數據包括中文數據和/或英文數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910084904.X/1.html,轉載請聲明來源鉆瓜專利網。





