[發明專利]一種基于深度學習的維吾爾文命名實體識別方法在審
| 申請號: | 201810371094.1 | 申請日: | 2018-11-12 |
| 公開(公告)號: | CN109117472A | 公開(公告)日: | 2019-01-01 |
| 發明(設計)人: | 買合木提·買買提;艾山·吾買爾;吐爾根·依布拉音;王路路;卡哈爾江·阿比的熱西提 | 申請(專利權)人: | 新疆大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 重慶百潤洪知識產權代理有限公司 50219 | 代理人: | 劉立春 |
| 地址: | 830046 新疆維*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音節 命名實體 神經網絡 字符向量 詞語 詞向量 前向 向量 拼接 上下文信息 結構信息 利用條件 向量表示 序列標注 字符提取 輸出端 分詞 建模 句子 標注 網絡 文本 學習 機場 語言 應用 | ||
本發明公開了一種基于深度學習的維吾爾文命名實體識別方法,該方法包括如下步驟:(1)對維吾爾文本進行分詞,對詞分別進行字符提取和音節切分;(2)用雙向LSTM網絡對提取的字符分別獲得前向和反向字符向量,并將它們拼接到一起形成詞語的字符向量表示;(3)用雙向LSTM網絡對切分的音節分別獲得前向和反向音節向量,并將它們拼接到一起形成詞語的音節向量表示;(4)將字符向量、音節向量與詞向量進行拼接并作為傳到雙向LSTM神經網絡來對每個詞語的上下文信息進行建模;(5)在LSTM神經網絡的輸出端,利用條件隨機場來對整個句子進行命名實體標注;本發明由字符,音節及詞向量的拼接作為神經網絡的輸入,提取了詞語的豐富結構信息,因此本發明能在形態豐富語言的序列標注中有廣泛應用。
技術領域
本發明涉及自然語言處理,具體涉及一種基于深度學習的維吾爾文命名實體識別方法。
背景技術
隨著互聯網技術的快速發展,有關新疆少數民族語言的搜索引擎、翻譯系統有了比較好的發展,但是在維吾爾語命名實體的識別方面,仍然缺少準確率高得命名實體識別方法。命名實體識別作為機器翻譯、信息抽取及檢索等研究的基礎,具有重要的研究意義。
目前命名實體識別(Named Entity Recognition,NER)方法分為三種:基于規則的方法,基于統計的方法以及基于神經網絡的方法。基于規則的命名實體識別的基本思路是人工編寫上下文敏感的產生式,使用普通的命名實體(NE)數據庫,都將不同的權值賦給不同的規則以便在產生規則沖突時可以選擇具有最大權值的規則。基于統計的方法將專名識別看作一般模式識別中分類問題的一個特例,利用字標注的方法來進行命名實體識別。其基本步驟包括:特征選擇、機器學習、標注、后處理。基于深度學習的方法通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示,需要比較大的數據規模。2011年在NER任務上開始使用神經網絡來進行研究。當時研究主要包含了兩種網絡結構,分別是窗口方法與句子方法來進行NER任務。這兩種方法主要區別在于窗口方法僅使用當前預測詞的上下文窗口進行輸入,再使用傳統的神經網絡結構;句子方法用整個句子作為當前預測詞輸入,加入了句子中相對位置特征來區分句子中的每個詞,接著使用一層卷積神經網絡(CNN)結構。訓練時的優化目標函數也分為兩種,其一是詞級別的對數似然,其二是句子級別的對數似然。2015年左右關于NER的工作大多使用的是循環神經網絡與條件隨機場相結合的(RNN+CRF)結構進行研究,這里的RNN一般使用長短期記憶神經網絡(LSTM)或GRU,它主要有Embedding層(主要有詞向量,字符相量以及一些額外特征),雙向RNN層,tanh隱層以及最后的CRF層構成。其效果已經達到或者超過了基于豐富特征的CRF模型,已成為目前基于深度學習的NER方法中的最主流模型。這種模型在特征方面,無需額外的特征工程,僅使用詞向量或字符相量就可以達到很好的效果。
維吾爾語命名實體識別具有獨特的詞法、語言特點,直接套用英語和漢語的方法并不合適。
目前維吾爾文命名實體識別研究相比于英文、中文的研究較少。國內有關維吾爾文命名實體識別主要集中在人名,時間表達式方面,也有基于規則的機構名、地名方面的研究。但是還沒有基于深度學習的識別率比較高的識別方法出現,仍然無法滿足應用需求。除此之外,漢語和英語命名實體識別最好的系統都使用字符級別的詞語表示,但是根據維吾爾語詞語的構詞特點,詞干和詞綴往往是多余一個字符構成并且它們的前后連接具有一定的規律性,特別在命名實體上這些特點更加明顯,因此可以通過音節向量來表示詞語能夠獲取更豐富的詞法信息,我們提出的基于深度學習的方法可以有效緩解維吾爾語命名實體識別中的詞綴復雜等未登錄詞問題,提高了識別率。
發明內容
本發明的目的是為了對維吾爾文文本中的命名實體(人名,地名,機構名)進行檢測并進行標注,以得到有效的識別性能,提出一種雙向LSTM神經網絡的輸入由字符向量、音節向量和詞語向量拼接組成的基于深度學習的維吾爾文命名實體識別方法。
基于深度學習的維吾爾文命名實體識別方法,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆大學,未經新疆大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810371094.1/2.html,轉載請聲明來源鉆瓜專利網。





