[發明專利]一種基于樸素貝葉斯算法的中文分詞方法在審
| 申請號: | 201810985776.1 | 申請日: | 2018-08-28 |
| 公開(公告)號: | CN109408801A | 公開(公告)日: | 2019-03-01 |
| 發明(設計)人: | 邵玉斌;郭海震;龍華;杜慶治 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料庫 標注 分詞 狀態轉移矩陣 漢字 中文分詞 貝葉斯 算法 句子 自然語言處理 概率模型 特征文件 預測 詞性 文檔 分行 統計 | ||
本發明涉及一種基于樸素貝葉斯算法的中文分詞方法,屬于自然語言處理就是領域。本發明首先選擇合適的文檔作為語料庫,并把語料庫按句分行處理;然后對語料庫進行標注,不僅為每個字標注出狀態,還要標注出詞性;接著統計標注好的語料庫,得到一個狀態轉移矩陣,為以后的預測階段提供依據;然后對標注好的語料庫提取每個字的特征,為了提高準確性,每個字的特征都包括其上下個字的屬性;然后使用每個漢字的特征文件訓練一個模型;接著通過狀態轉移矩陣和概率模型預測待分詞的句子中的每個漢字;最后,根據不同的漢字狀態,將帶分詞的句子分詞。
技術領域
本發明涉及一種基于樸素貝葉斯算法的中文分詞方法,屬于自然語言處理就是領域。
背景技術
中文分詞(Chinese Word Segmentation)指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復雜得多、困難得多。中文分詞對于搜索引擎來說,最重要的并不是找到所有結果,因為在上百億的網頁中找到所有結果沒有太多的意義,沒有人能看得完,最重要的是把最相關的結果排在最前面,這也稱為相關度排序。中文分詞的準確與否,常常直接影響到對搜索結果的相關度排序。從定性分析來說,搜索引擎的分詞算法不同,詞庫的不同都會影響頁面的返回結果。
樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法。最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive BayesianModel,NB M)。和決策樹模型相比,樸素貝葉斯分類器(Naive Bayes Classifier,或NBC)發源于古典數學理論,有著堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。
發明內容
本發明要解決的技術問題是提出一種基于樸素貝葉斯算法的中文分詞方法,用以解決上述問題。
本發明的技術方案是:一種基于樸素貝葉斯算法的中文分詞方法,首先選擇合適的文檔作為語料庫,并把語料庫做按句分行處理;然后對語料庫進行標注,不僅為每個字標注出狀態,還要標注出詞性;接著統計標注好的語料庫,得到一個狀態轉移矩陣,為以后的預測階段提供依據;然后對標注好的語料庫提取每個字的特征,為了提高準確性,每個字的特征都包括其上下個字的屬性;然后使用每個漢字的特征文件訓練一個模型;接著通過狀態轉移矩陣和概率模型預測待分詞的句子中的每個漢字;最后,根據不同的漢字狀態,將帶分詞的句子分詞。
具體步驟為:
(1)找到適合作為訓練集的語料,將語料按句子進行切分,使得每一行只有一個句子;
(2)處理步驟(1)切分的句子,手工標注每個漢字,將每個字標注為狀態集states中的一個;
(3)處理步驟(2)獲得的訓練集,統計狀態集中每個狀態的下一個狀態出現的次數,記作轉移矩陣transfer,transfer包括兩部分:first_transfer和second_transfer;
(4)對步驟(3)的結果中的first_transfer進行歸一化處理,每一個狀態出現的次數除以四個狀態出現的總和,記為概率矩陣pro1_transfer;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810985776.1/2.html,轉載請聲明來源鉆瓜專利網。





