[發(fā)明專利]一種基于Attention機制來構建老撾語詞性標注模型的方法在審
| 申請?zhí)枺?/td> | 201811532384.6 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109753652A | 公開(公告)日: | 2019-05-14 |
| 發(fā)明(設計)人: | 周蘭江;王興金;張建安;周楓 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 解碼 語義向量 標注 編碼層 構建 詞性標注 詞性標注模型 機器學習技術 輸入序列信息 自然語言處理 機制建立 句子輸入 句子信息 輸入序列 老撾語 詞性 語料 研究 | ||
1.一種基于Attention機制來構建老撾語詞性標注模型的方法,其特征在于:包括如下步驟:
Step1、Attention機制的構建
Attention機制包括兩層:編碼層與解碼層,編碼層用于老撾語的輸入,解碼層用于計算出每個老撾詞的詞性;
Step 1.1、編碼層
編碼層是基于GRU來構建,在編碼層構建了兩層雙向GRU,在編碼時,老撾句子中的第一個詞將按序進入GRU中進行處理,GRU會保留并輸出對詞性計算有用的信息,并除去無用信息,信息以向量的形式呈現(xiàn),在編碼層加入了BahdanauAttention機制,BahdanauAttention機制是注意力機制的一種,首先它會選擇編碼層每個詞的GRU輸出向量,然后根據(jù)每個向量的重要程度而賦予不同權重,最后使用輸出向量與權重計算語義向量C,語義向量C將被輸入到解碼層;
Step 1.2、解碼層
解碼層同樣是基于GRU來構建,在解碼層使用單層GRU,在解碼運算中,首先該層GRU會根據(jù)語義向量C計算出詞性信息向量,然后詞性信息向量會傳遞給Softmax函數(shù),Softmax函數(shù)來計算出詞性概率分布;
Step2、Attention機制的訓練
當Attention機制搭建完成后,使用老撾語詞性標注語料庫對Attention機制的參數(shù)進行訓練,直到模型達到穩(wěn)定狀態(tài),就得到Attention機制,訓練過程中,首先使用交叉熵損失函數(shù)來計算解碼層輸出的詞性概率分布與真實分布的差距,然后使用Adam算法來減少差距,以此訓練Attention機制的參數(shù);
Step3、選擇詞性概率分布中概率最大的詞性作為輸出;
Step4、在對老撾句子詞性標注時,Attention機制循環(huán)Step1,Step3,對老撾句子中的每一個詞進行處理,就可以得到該老撾句子的詞性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811532384.6/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





