[發明專利]一種基于雙向長短時記憶網絡模型的中文分詞方法有效
| 申請號: | 201810933201.5 | 申請日: | 2018-08-16 |
| 公開(公告)號: | CN109213997B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 邵黨國;鄭娜 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙向 短時記憶 網絡 模型 中文 分詞 方法 | ||
本發明公開了一種基于雙向長短時記憶網絡模型的中文分詞方法,首先獲得任一領域的數據集,并將數據集分為訓練集和測試集,然后將訓練集進行預處理,將預處理后的訓練集和微軟亞洲研究院的公開數據集msr分別進行字嵌入處理,再把處理好的訓練集和數據集msr分別輸入Bi?LSTM神經網絡模型中進行訓練,得到訓練集的模型X_Bi?LSTM模型和msr_Bi?LSTM模型,然后分別用X_Bi?LSTM模型、msr_Bi?LSTM模型對測試集進行標簽預測,并對兩種模型的預測概率進行權重組合,得到組合后的各漢字標簽的概率,然后利用Viterbe算法對組合后的各標簽概率進行計算得到各漢字屬于各標簽的最終概率,并將概率最大值所屬標簽作為各漢字的標簽,從而完成中文分詞,本發明可獲得較好的分詞結果,提高了分詞的準確率。
技術領域
本發明涉及一種基于雙向長短時記憶網絡模型的中文分詞方法,屬于自然語言處理領域。
背景技術
在中文中,詞與詞之間不存在分隔符,詞本身也缺乏明顯的形態標記,因此,中文信息處理的特有問題就是如何將漢語的字串分割為合理的詞語序列,即中文分詞,因而分詞是中文自然語言處理的第一步,這是不同于其他語言的自然語言處理系統的重要特點,也是影響自然語言處理在中文信息處理中應用的重要因素。近年來,國內外眾多學者在中文分詞領域做了大量研究工作,取得了一定的研究成果。但是,從實用化、效率、功能角度看,其還不能滿足實際需求。
公知的中文分詞主要包括四種方法:1.基于詞典的分詞方法,如吳春穎(基于二元語法的N-最大概率中文粗分模型,2007,27(12):2902-2905);2.基于統計的分詞方法,如Tseng H(A conditional random field word segmenter for sighan bakeoff 2005,2005:168-171);3.基于理解的分詞方法,如Wu A(Word segmentation in sentenceanalysis,1998);4.基于神經網絡的分詞方法,如Zheng X(Deep learning for Chineseword segmentation and POS tagging,2013)。其中基于詞典的分詞方法程序簡單易行,分詞速度快,但是其分詞精度受詞典的影響很大,而且不能處理歧義詞。基于統計的分詞方法只有訓練語料規模足夠大并且覆蓋面足夠廣的情況下才可以獲得較高的分詞準確率,其新詞識別能力相對較弱。基于理解的分詞方法的思想是模擬人對句子的理解,在分詞的同時進行句法、語義分析,這種方法需要大量的語言知識做支撐。基于神經網絡的分詞方法借助神經網絡自動學習數據特征,避免了傳統的分詞方法由于人為設置的局限性,但是神經網絡模型受上下文窗口大小的影響比較大,當窗口較大時容易引入過多特征帶來的雜質信息并容易出現過擬合問題,而且傳統的循環神經網絡(如RNN)只是依靠句子順序上的上文信息,并不能利用句子中的未來文本信息。
發明內容
本發明的目的在于提供一種基于雙向長短時記憶網絡模型的中文分詞方法,本發明通過對某一領域內的信息訓練來學習領域內的信息特征,對領域外的信息(msr)訓練來學習領域外的特征,從而分別獲得分詞模型,通過以上分詞模型對某一領域內信息進行分詞時可獲得較好的分詞結果,提高了分詞的準確率。
本發明的技術方案是:首先獲得任一領域的數據集,并將數據集分為訓練集和測試集,然后將訓練集進行預處理,將預處理后的訓練集和微軟亞洲研究院的公開數據集msr分別進行字嵌入處理,再把處理好的訓練集和數據集msr分別輸入到雙向長短時記憶神經網絡模型即Bi-LSTM神經網絡模型中進行訓練,分別得到訓練集的模型和msr_Bi-LSTM模型,訓練集的模型記為X_Bi-LSTM模型,然后分別用X_Bi-LSTM模型、msr_Bi-LSTM模型對測試集進行標簽預測,并對兩種模型的預測概率進行權重組合,得到組合后的各漢字標簽的概率,然后利用Viterbe算法對組合后的各漢字的各標簽概率進行計算得到各漢字屬于各標簽的最終概率,對比各漢字在各標簽下的概率值,將概率最大值所屬標簽作為各漢字的標簽,從而完成中文分詞。
本發明方法的具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810933201.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語料庫的訓練方法及系統
- 下一篇:中文錯字檢測方法及系統





