[發明專利]一種基于深度學習的維吾爾文命名實體識別方法在審
| 申請號: | 201810371094.1 | 申請日: | 2018-11-12 |
| 公開(公告)號: | CN109117472A | 公開(公告)日: | 2019-01-01 |
| 發明(設計)人: | 買合木提·買買提;艾山·吾買爾;吐爾根·依布拉音;王路路;卡哈爾江·阿比的熱西提 | 申請(專利權)人: | 新疆大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 重慶百潤洪知識產權代理有限公司 50219 | 代理人: | 劉立春 |
| 地址: | 830046 新疆維*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音節 命名實體 神經網絡 字符向量 詞語 詞向量 前向 向量 拼接 上下文信息 結構信息 利用條件 向量表示 序列標注 字符提取 輸出端 分詞 建模 句子 標注 網絡 文本 學習 機場 語言 應用 | ||
1.一種基于深度學習的維吾爾文命名實體識別方法,其特征在于,包括如下步驟:
S1.對待標注的維吾爾文文本數據進行分句、分詞,并對詞進行字符提取和音節切分;
S2.用雙向LSTM網絡對提取的字符分別獲得前向字符向量和反向字符向量,并將它們拼接到一起形成詞語的字符向量表示;
S3.用雙向LSTM網絡對切分的音節分別獲得前向音節向量和反向音節向量,并將它們拼接到一起形成詞語的音節向量表示;
S4.將字符向量、音節向量與詞向量進行拼接并作為傳到雙向LSTM神經網絡來訓練得到輸入語句的信息特征;
S5.針對步驟S4中得到的輸出,利用條件隨機場來對整個句子進行命名實體標注,標記出語句中的命名實體信息。
2.根據權利要求1所述的基于深度學習的維吾爾文命名實體識別方法,其特征在于,在步驟S1中,進行所述字符提取和音節切分包括以下步驟:
S11.采用自然語言處理工具對文本進行句子邊界識別和詞例化,使得數據集以句子和每句一個token分割來呈現;
S12.對步驟S11中得到的句子以及單詞進行統計,獲取其對應的句表,單詞表;
S13.將步驟S12中的所述單詞表進行字符統計,獲取字符表;
S14.按照音節進行切分,將步驟S12中的所述單詞表中的音節進行統計,形成音節表。
3.根據權利要求1所述的基于深度學習的維吾爾文命名實體識別方法,其特征在于,在步驟S4中,得到所述輸入語句的信息特征包括以下步驟:
S41.初始化:第t時刻的向量xt由字符級向量音節級向量傳統的詞嵌入組成,如以下公式:
其中,xt∈Rn為時刻t輸入拼接向量,ht隱藏層的向量,W*為不同狀態下對于輸入xt的權重矩陣,U*為隱藏層狀態層ht的權重矩陣,b*為偏置向量;
S42.遺忘門:決定上一時刻的單元狀態ct-1丟棄了哪些信息,遺留哪些信息保留到當前時刻ct的單元狀態,其計算公式如下:
ft=σ(Wfxt+Ufht-1+bf)
S43.輸入門:確定哪些新信息被保存在的單元狀態ct中;首先,使用sigmoid激活函數確定哪些信息被更新;然后,用tanh正切函數描述當前輸入的單元狀態接著,更新當前時刻的單元狀態ct;其計算公式如下:
it=σ(Wixt+Uiht-1+bi);
S44.輸出門;確定LSTM最終的輸出值;首先利用sigmoid層確定細胞狀態的輸出,然后使用tanh層確定最終的輸出,是由輸出門和單元狀態來共同確定;其計算公式如下:
ot=σ(Woxt+Uoht-1+bo);
ht=ot·tanh(ct);
S45.基于以上步驟,利用反向傳播層獲取未來信息;
S46.兩個隱藏層信息通過級聯獲取最后的輸出向量。
4.根據權利要求1所述的基于深度學習的維吾爾文命名實體識別方法,其特征在于,在步驟S5中,標記出語句中的命名實體信息的具體步驟為:
S51.對于給定的觀察序列X,計算所有可能的標記序列y上的條件概率p(y|x);
S52.極大化訓練數據的對數似然函數來求模型參數;
S53.在標記序列中找到條件概率最高的y來對序列進行標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆大學,未經新疆大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810371094.1/1.html,轉載請聲明來源鉆瓜專利網。





