[發明專利]一種基于樸素貝葉斯算法的中文分詞方法在審
| 申請號: | 201810985776.1 | 申請日: | 2018-08-28 |
| 公開(公告)號: | CN109408801A | 公開(公告)日: | 2019-03-01 |
| 發明(設計)人: | 邵玉斌;郭海震;龍華;杜慶治 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料庫 標注 分詞 狀態轉移矩陣 漢字 中文分詞 貝葉斯 算法 句子 自然語言處理 概率模型 特征文件 預測 詞性 文檔 分行 統計 | ||
1.一種基于樸素貝葉斯算法的中文分詞方法,其特征在于:
(1)找到適合作為訓練集的語料,將語料按句子進行切分,使得每一行只有一個句子;
(2)處理步驟(1)切分的句子,手工標注每個漢字,將每個字標注為狀態集states中的一個;
(3)處理步驟(2)獲得的訓練集,統計狀態集中每個狀態的下一個狀態出現的次數,記作轉移矩陣transfer,transfer包括兩部分:first_transfer和second_transfer;
(4)對步驟(3)的結果中的first_transfer進行歸一化處理,每一個狀態出現的次數除以四個狀態出現的總和,記為概率矩陣pro1_transfer;
(5)對步驟(3)的結果中的second_transfer進行歸一化處理,記當前字的狀態為cur_state,下一個出現字的狀態為sub_state,每個當前字下一個可能出現的狀態有四個,歸一化處理就是取每一個sub_state出現的次數除以當前狀態下可能出現的四個狀態出現次數的總和,記作轉移概率矩陣pro2_transfer;
(6)提取每個字的特征feature,為后續步驟預測字的狀態提供依據,對步驟(3)的結果進行處理,在為每個字生成特征feature的過程中,為了提高準確性,充分利用上下文的關系,為每個字提取特征的時候考慮其前后多個字,組成一個窗口;
(7)使用步驟(6)提取的特征文件訓練一個模型model;
(8)對步驟(7)的結果進行歸一化處理,記為概率模型pro_model;
(9)將步驟(8)處理過后的模型用嵌套字典的數據結構存儲,并以字節流的方式保存在本地;
(10)預測要分詞的句子sentence中各個字的狀態,其中,每個字的狀態是狀態集states中的一個,各個字的預測狀態是以其各個狀態的得分score來確定,標注的時候要區分句首字和非句首字,句首字使用case1來預測其狀態,非句首字用case2預測詞性,最后選出一個得分最高的狀態;
(11)將標注好狀態的字進行分詞:依次拿到一個字,若這個字的狀態是S,則該字就是一個詞,若這個字的狀態是B,則繼續拿下一個字,直到拿到字的狀態是E時,把這幾個字作為一個詞輸出;
(12)判斷要分詞的句子sentence是否完結,如果完結,則分詞結束,否則遞歸重復步驟(11)。
2.根據權利要求1所述的基于樸素貝葉斯算法的中文分詞方法,其特征在于:所述步驟1中的切分為把語料庫的文檔,按句話、問號和嘆號把句子切分,然后每句話單獨放置一行。
3.根據權利要求1所述的基于樸素貝葉斯算法的中文分詞方法,其特征在于:所述步驟(2)中的states是指:states=[B、M、E、S];其中,B表示這個字在詞語中位于開始位置,M表示這個字在詞語中位于中間位置,E表示這個字在詞語中位于末尾位置,S表示這個字可以獨立成詞。
4.根據權利要求1所述的基于樸素貝葉斯算法的中文分詞方法,其特征在于:
所述步驟(3)中的first_transfer是指:first_transfer表示每個句子中句首字的狀態,first_transfer={B:freq0,M:freq1,E:freq2,S:freq3};
所述步驟(3)中的second_transfer是指:second_transfer={B:{B:freq4,M:freq5,E:freq6,S:freq7},M:{B:freq8,M:freq9,E:freq10,S:freq11},E:{B:freq12,M:freq13,E:freq14,S:freq15},S:{B:freq16,M:freq17,E:freq18,S:freq19}}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810985776.1/1.html,轉載請聲明來源鉆瓜專利網。





