[發明專利]一種基于雙向長短時記憶網絡模型的中文分詞方法有效
| 申請號: | 201810933201.5 | 申請日: | 2018-08-16 |
| 公開(公告)號: | CN109213997B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 邵黨國;鄭娜 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙向 短時記憶 網絡 模型 中文 分詞 方法 | ||
1.一種基于雙向長短時記憶網絡模型的中文分詞方法,其特征在于,首先獲得任一領域的數據集,并將數據集分為訓練集和測試集,然后將訓練集進行預處理,將預處理后的訓練集和微軟亞洲研究院的公開數據集msr分別進行字嵌入處理,再把處理好的訓練集和數據集msr分別輸入到雙向長短時記憶神經網絡模型即Bi-LSTM神經網絡模型中進行訓練,分別得到訓練集的模型和msr_Bi-LSTM模型,訓練集的模型記為X_Bi-LSTM模型,然后分別用X_Bi-LSTM模型、msr_Bi-LSTM模型對測試集進行標簽預測,并對兩種模型的預測概率進行權重組合,得到組合后的各漢字標簽的概率,然后利用Viterbe算法對組合后的各漢字的各標簽概率進行計算得到各漢字屬于各標簽的最終概率,對比各漢字在各標簽下的概率值,將概率最大值所屬標簽作為各漢字的標簽,從而完成中文分詞;
所述方法的具體步驟如下:
Step1:首先獲得任一領域的文本數據集,并將文本數據集分為訓練集和測試集,然后將訓練集進行預處理,預處理過程具體為利用BMES標注方式對訓練集中的漢字進行標注,其中對于多字詞,B為多字詞中的第一個字的標簽,M為多字詞中去除第一個字和最后一個字后其他字的標簽,E為多字詞中最后一個字的標簽,S為單字詞的標簽,數據集msr為已標注完成的數據集,然后將標注后的訓練集和數據集msr進行字嵌入處理,具體過程為根據標點符號對標注后的訓練集和數據集msr進行切分,并將切分后的結果分別用數組data和label表示,其中data數據組包括每一個漢字,label數據組包括每一個漢字對應的標簽,然后將data數據組和label數據組分別進行數字化處理,對data數據組的每一個漢字用該漢字第一次出現的順序的數字表示,并存儲在d[‘x’]中,對label數據組的標簽用阿拉伯數字進行表示,并存儲在d[‘y’]中,然后利用詞向量技術將d[‘x’]和d[‘y’]中的數字進行向量轉化,每個漢字轉化成長度為n的向量,得到各漢字在1~n維度下的概率;
Step2:將Step1得到的訓練集中的各漢字的向量和各漢字對應的標簽的數據輸入至Bi-LSTM神經網絡模型中進行訓練,得到訓練集的模型X_Bi-LSTM模型,將數據集msr中的各數據輸入至Bi-LSTM神經網絡模型中進行訓練,得到msr_Bi-LSTM模型;
Step3:利用Step2得到的X_Bi-LSTM模型和msr_Bi-LSTM模型分別對測試集中的各漢字的標簽進行概率預測,分別得到兩種預測概率P1i、P2i,其中P1i表示利用X_Bi-LSTM模型對測試集中的各漢字預測的各標簽的概率,i=B,M,E,S,P2i表示利用msr_Bi-LSTM模型對測試集中的各漢字預測的各標簽的概率,然后將兩種模型的預測概率進行權重組合,得到測試集中各漢字的標簽綜合預測概率P,公式如下:
P=a*P1i+b*P2i;
Step4:利用Viterbi算法得出測試集中的各漢字在各標簽下的概率,比較該漢字在各標簽下的概率,取概率最大值所屬標簽作為各漢字最終的標簽。
2.根據權利要求1所述的基于雙向長短時記憶網絡模型的中文分詞方法,其特征在于,所述方法應用在冶金領域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810933201.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語料庫的訓練方法及系統
- 下一篇:中文錯字檢測方法及系統





