[發明專利]基于無向圖與單層神經網絡的中文分詞方法有效
| 申請號: | 201711218709.9 | 申請日: | 2017-11-28 |
| 公開(公告)號: | CN107832307B | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 夏睿;何聲歡 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/35 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 朱顯國 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 單層 神經網絡 中文 分詞 方法 | ||
本發明公開了一種基于無向圖與單層神經網絡的中文分詞方法,首先根據標注集,對給定的訓練中文文本進行標注,統計其初始狀態系數和狀態轉移系數;然后根據字典資源文件,對中文文本的每個字符依據其上下文進行特征抽取,得到文本特征;根據所有文本特征,構建特征函數集合,將文本特征轉換特征向量;接著將特征向量送給單層神經網絡訓練分類器模型進行訓練,直至模型收斂;再使用單層神經網絡模型,對測試數據進行分類,根據統計的初始狀態系數、狀態轉移系數,使用維特比算法進行最優標注序列的求解;最后將最優標注序列與測試原始文本結合,生成分詞文本。本發明訓練速度更快,消耗資源更少,泛化能力更強。
技術領域
本發明涉及機器學習、自然語言處理領域,具體是涉及一種基于無向圖與單層神經網絡的中文分詞方法。
背景技術
中文分詞是文本分類、信息檢索、信息過濾、情感分析、文獻自動標引、摘要自動生成等中文信息處理中的關鍵技術及難點。不同于英語、葡萄牙語等語言,中文的詞與詞之間沒有明顯的分隔符號。而詞又是理解句子的最小單位,這就導致分詞成為中文信息處理非常重要的第一步。隨著計算機與網絡技術的不斷發展,當今互聯網已進入社交媒體時代。越來越多的用戶樂于在網絡上分享自己對產品或事物觀點和體驗。對于海量的主觀文本信息,僅依靠人工進行跟蹤、組織和管理已難以實現,如何利用計算機技術對海量的中文文本進行自動分詞,已逐漸成為當下最迫切的需求。
傳統的方法有基于詞典的方法、基于規則的方法和基于統計的方法。基于詞典的方法、基于規則的方法人工干預較多,基于統計的方法利用機器學習進行中文分詞,降低人工成本。基于統計方法中,基于字標注的中文分詞方法是近年來最為有效的分詞方法,常采用的模型有隱馬爾可夫模型、最大熵模型、條件隨機場模型等等。但這類方法往往具有較為復雜的模型結構,計算資源開銷較大。
發明內容
本發明的目的在于提供一種基于無向圖與單層神經網絡的中文分詞方法,模型更為簡單、泛化能力強,計算資源開銷小。
實現本發明目的的技術解決方案為:一種基于無向圖與單層神經網絡的中文分詞方法,包括以下步驟:
步驟1、根據標注集,對給定的訓練中文文本進行標注,統計其初始狀態系數和狀態轉移系數;
步驟2、根據字典資源文件,對中文文本的每個字符依據其上下文進行特征抽取,得到文本特征;根據所有文本特征,構建特征函數集合,將文本特征轉換特征向量;
步驟3、將步驟2得到的特征向量送給單層神經網絡訓練分類器模型進行訓練,直至模型收斂;
步驟4、使用步驟3得到的單層神經網絡模型,對測試數據進行分類,根據步驟1統計的初始狀態系數、狀態轉移系數,使用維特比算法進行最優標注序列的求解;
步驟5、將步驟4得到的最優標注序列與測試原始文本結合,生成分詞文本。
本發明與現有技術相比,其顯著優點為:1)本發明使用單層神經網絡模型,相比于隱馬爾科夫模型、條件隨機場模型,涉及的模型參數更少,訓練速度更快,消耗資源更少;2)本發明借鑒了生成式模型隱馬爾科夫模型的優點,引入了一階馬爾科夫假設,保留了轉移系數矩陣;借鑒了判別式模型條件隨機場的優點,引入了特征函數,有助于提高模型的泛化能力。
附圖說明
圖1為本發明方法的流程圖。
具體實施方式
下面結合附圖和具體實施例進一步說明本發明方案。
如圖1所示,基于無向圖與單層神經網絡的中文分詞方法,主要分為五個階段,具體步驟如下:
步驟1、根據標注集,對給定的訓練中文文本進行標注,統計其初始狀態系數和狀態轉移系數,具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711218709.9/2.html,轉載請聲明來源鉆瓜專利網。





