[發明專利]一種基于seq2seq模型的中文分詞方法有效
| 申請號: | 201810094751.2 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108491372B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 史景倫;劉玉德;寧培陽;王桂鴻 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06N3/04 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 seq2seq 模型 中文 分詞 方法 | ||
1.一種基于seq2seq模型的中文分詞方法,其特征在于,所述方法包括以下步驟:
步驟1、對文本語料進行預處理,把輸入的每一個句子中的文字按照字頻高低轉為漢字數字序列,并按照字在詞中的位置,轉化為對應的標簽序列;
步驟2、將步驟1中得到的漢字數字序列按句輸入到字向量轉化層中,輸出字向量矩陣;
步驟3、將步驟2得到的字向量矩陣采用mini-batch進行分塊,輸入到采用注意力機制的seq2seq模型中,得到預測標簽序列,其中seq2seq模型包括編碼層和解碼層;
步驟4、序列后處理,將步驟3中的預測標簽序列與原始文本語料的標簽序列進行比對,按每個標簽的含義合成最終分詞后的句子,按空格分隔開。
2.根據權利要求1所述的一種基于seq2seq模型的中文分詞方法,其特征在于,所述seq2seq模型的編碼層采用雙向GRU層,每個時序的輸出為hj,其中,表示前向后向的每個時序的輸出。
3.根據權利要求1所述的一種基于seq2seq模型的中文分詞方法,其特征在于,所述seq2seq模型的解碼層包括單向的GRU層、softmax層和維特比算法層,并結合了注意力機制。
4.根據權利要求3所述的一種基于seq2seq模型的中文分詞方法,其特征在于,所述單向的GRU層每個時序的隱藏層輸出為si=f(yi-1,si-1,ci),其中i為時間序號,yi是預測標簽輸出,ci為注意力機制輸出。
5.根據權利要求4所述的一種基于seq2seq模型的中文分詞方法,其特征在于,所述注意力機制輸出ci的具體公式為:
其中:hj為每個時序的輸出;權重aij表示公式為:
上式eij=a(si-1,hj)表示一種對齊模型。
6.根據權利要求4所述的一種基于seq2seq模型的中文分詞方法,其特征在于,將單向的GRU層每個時序的隱藏層輸出si輸入到softmax層后得到yi=softmax(yi-1,si,ci),在訓練階段采用Adam優化算法進行迭代,在測試階段則把yi輸入到維特比層進行糾錯后再輸出預測標簽序列yi,全部預測標簽序列yi組成Y,再輸入步驟4進行序列后處理。
7.根據權利要求1所述的一種基于seq2seq模型的中文分詞方法,其特征在于,所述方法采用的標簽系統是{BMES}標簽系統,其中B指Begin表示詞頭,M指Middle表示詞中,E指End表示詞尾,S指Single表示單個字的詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810094751.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種招標文件編制管理系統
- 下一篇:一種實體識別方法及系統





