[發明專利]基于無向圖與單層神經網絡的中文分詞方法有效
| 申請號: | 201711218709.9 | 申請日: | 2017-11-28 |
| 公開(公告)號: | CN107832307B | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 夏睿;何聲歡 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/35 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 朱顯國 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 單層 神經網絡 中文 分詞 方法 | ||
1.基于無向圖與單層神經網絡的中文分詞方法,其特征在于,包括以下步驟:
步驟1、根據標注集,對給定的訓練中文文本進行標注,統計其初始狀態系數和狀態轉移系數;
步驟2、根據字典資源文件,對中文文本的每個字符依據其上下文進行特征抽取,得到文本特征;根據所有文本特征,構建特征函數集合,將文本特征轉換特征向量;
步驟3、將步驟2得到的特征向量送給單層神經網絡訓練分類器模型進行訓練,直至模型收斂;
步驟4、使用步驟3得到的單層神經網絡模型,對測試數據進行分類,根據步驟1統計的初始狀態系數、狀態轉移系數,使用維特比算法進行最優標注序列的求解;
步驟5、將步驟4得到的最優標注序列與測試原始文本結合,生成分詞文本;
所述步驟2具體為:
步驟2.1、根據特征工程模板文件和字典資源文件,對每個字符依據其上下文生成特定的文本特征,統計出現的特征數目,為每個特征分配唯一序號;
步驟2.2、根據每個特征的唯一序號,將字符對應的所有特征表示成一個特征向量;
使用的特征工程模板文件如下:
1)Cn(n=-2,-1,0,1,2)
2)CnCn+1(n=-2,-1,0,1)
3)C-1C1
4)MWL0,t0
5)Cnt0(n=-1,0,1)
6)T(C-1)T(C0)T(C1)
7)N(C-1)N(C0)N(C1)
8)F(C-1)F(C0)F(C1)
其中,Cn表示相對位置為n的字符;MWL0,t0分別表示字典資源文件中,當前字符所屬最長詞的長度及對應的標注;T(Cn)表示取得字符的類別號,N(Cn)表示取得字符的中國人名用字類別號,F(Cn)表示取得字符的外國人名用字類別號;
T(Cn)、N(Cn)和F(Cn)具體為:
A)T(Cn)所取得字符的類別號,分為6類,分別是:0.阿拉伯數字(ANum)、1.中文數字1(CNum1)、2.中文數字2(CNum2)、3.英文字母(EngLetter)、4.日期(Date)及5.其他(Others);
B)N(Cn)所取得字符的中國人名用字類別號,分為6類,分表是:0.常見姓(FrequencySurname)、1.普通姓(Common Surname)、2.人名用字(Given Name)、3.both 0+2、4.both 1+2及5.其他(Others);
C)F(Cn)所取得字符的外國人名用字類別號,分為2類,分表是:非外國人名常用字及外國人名常用字;
步驟4中采用維特比算法結合統計的初始狀態系數及狀態轉移系數進行解碼,具體為:
步驟4.1、進行單層神經網絡預測,得到基于softmax歸一化后的概率:
式中,P(yt=i|wt)表示位置t上被標注為類別i的概率,其中L表示標注集的大小,θi表示類別i對應的神經網絡單元權值向量,wt為位置t上的字符xt表示成的特征向量,所有xt構成長度為T的中文句子s=(x1,x2,…,xT);
步驟4.2、根據得到的概率進行維特比解碼,求解出最優標注序列Y=(y1,y2,…,yT)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711218709.9/1.html,轉載請聲明來源鉆瓜專利網。





