[發明專利]一種中文分詞方法在審
| 申請號: | 201710439335.7 | 申請日: | 2017-06-12 |
| 公開(公告)號: | CN107168957A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 金宸;李維華;王順芳;郭延哺;鄧春云 | 申請(專利權)人: | 云南大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 云南派特律師事務所53110 | 代理人: | 董建國 |
| 地址: | 650091*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 分詞 方法 | ||
1.一種中文分詞方法,其特征在于包括以下步驟:
步驟1:將不超過指定長度的中文文本輸入到系統中作為輸入序列A;
步驟2:將輸入序列A傳遞給詞向量查找層,把輸入的字符轉化為詞向量,得到輸出序列B;
步驟3:將序列B作為輸入序列傳遞給基于注意力機制的雙向長短期記憶神經網絡,并隨后通過一層隱藏層,得到輸出序列C;
步驟4:將序列C作為輸入序列傳遞到線性鏈式條件隨機場解碼層,生成分詞標記標簽序列D;
步驟5:將分詞標記標簽序列D轉化為用空格隔開的文本序列E。
2.根據權利要求1所述的方法,其中所述的中文文本是由一個或多個句末帶有終結符號的句子構成的文本,并且文本符合中文語法規則,其中終結符包括句號、問號、感嘆號、逗號和分號。
3.根據權利要求1所述的方法,其中所述的詞向量查找層,指的是通過現有的神經網絡模型(Word2Vec)預先訓練出的字符與向量對應表。
4.根據權利要求1所述的方法,其中所述的隱藏層的初始化輸入包括雙向長短期記憶神經網絡隱藏層由前向后的初始化狀態及由后向前的初始化狀態,及三層長短期記憶神經網絡每層的初始化狀態,都采用所述句子的句向量。
5.根據權利要求1至4任意一項所述的方法,包括:使用小批量隨機梯度下降訓練神經網絡層。
6.根據權利要求1所述的方法,其中所述的基于注意力機制的雙向長短期記憶神經網絡所用單元是基于注意力機制的長短期記憶神經網絡(LSTMN)單元,其特點是其記憶單元使用注意力機制減少記憶壓縮。
7.根據權利要求1所述的方法,其中所述的分詞標記標簽是指{BMES}標簽系統,其中B指Begin表示詞首,M指Middle表示詞中,E指End表示詞尾,s指Single表示單個詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南大學,未經云南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710439335.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于管道的中文篇章結構分析方法及系統
- 下一篇:一種翻譯方法及裝置





