[發明專利]一種基于HMM的中文分詞方法在審
| 申請號: | 201710933306.6 | 申請日: | 2017-10-10 |
| 公開(公告)號: | CN107861940A | 公開(公告)日: | 2018-03-30 |
| 發明(設計)人: | 龍華;吳睿;邵玉斌;杜慶治;熊新 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hmm 中文 分詞 方法 | ||
1.一種基于HMM的中文分詞方法,其特征在于:利益HMM和分詞詞典的融合對中文分詞方法進行改進,具體步驟為:
①輸入待切分的詞串;
②使用分詞詞典用正向最大匹配的方法對輸入的待切分的詞串進行切分,得到若干種候選的分詞結果;
③引入HMM,對步驟②得到的若干種候選的分詞結果進行計算,得到最有可能的分詞結果。
2.根據權利要求1所述的基于HMM的中文分詞方法,其特征在于:步驟①所述的待切分的詞串可以為任意詞串。
3.根據權利要求1所述的基于HMM的中文分詞方法,其特征在于:步驟②所述的得到若干種候選的分詞結果的方法為全切分,用以確保切分結果集對正確切分結果100%的召回率。
4.根據權利要求3所述的基于HMM的中文分詞方法,其特征在于:所述全切分需要構建一棵多叉樹,其中每一條從root到葉子節點的路徑均為一種分詞結果,所有root到葉子節點的路徑就是全切分的結果。
5.根據權利要求4所述的基于HMM的中文分詞方法,其特征在于:所述構建多叉樹的方法為遞歸,即首先從待切分的詞串的第一個字開始切分,將剩下的詞串用正向最大匹配的方法與分詞字典進行匹配,列出所有可能;然后將切分的指針向右移動一個單位,將剩下的詞串用正向最大匹配的方法與分詞字典進行匹配,列出所有可能;以此類推,直到切分的指針向右移動一個單位后,左邊不是一個詞,則停止循環。
6.根據權利要求1所述的基于HMM的中文分詞方法,其特征在于:所述步驟③引入的HMM是一個五元組,即狀態值集合S,觀察值集合O,初始狀態概率矩陣PI,轉移概率矩陣A,發射概率矩陣B。
7.根據權利要求6所述的基于HMM的中文分詞方法,其特征在于:所述狀態值集合S為(B,M,E,S),作用是用來標注HMM,分別代表該字在詞語中的位置,B代表該字是詞的起始字,M代表是詞的中間字,E代表是詞的結束字,S代表是該字為單詞,觀察值集合O為所有漢字以及標點。
8.根據權利要求6所述的基于HMM的中文分詞方法,其特征在于:所述初始狀態概率矩陣PI是所述的待切分的詞串的第一個字屬于(B,M,E,S)這四種狀態的概率;轉移概率矩陣A是一個4×4的二維矩陣,矩陣的橫坐標和縱坐標為BEMS×BEMS,即每個狀態之間的轉移概率;發射概率矩陣B為每個漢字在每個狀態的概率;
并且所述的初始狀態概率矩陣PI,轉移概率矩陣A,發射概率矩陣B都已經通過訓練為已知。
9.根據權利要求1所述的基于HMM的中文分詞方法,其特征在于:步驟③所述的計算若干種候選的分詞結果的算法為viterbi算法,結合步驟②得到的若干種候選的分詞結果,確定每個字的位置,最后通過計算得到概率最大的那個分詞結果,作為最終分詞的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710933306.6/1.html,轉載請聲明來源鉆瓜專利網。





