[發(fā)明專利]一種基于HMM的中文分詞方法在審
| 申請?zhí)枺?/td> | 201710933306.6 | 申請日: | 2017-10-10 |
| 公開(公告)號: | CN107861940A | 公開(公告)日: | 2018-03-30 |
| 發(fā)明(設(shè)計)人: | 龍華;吳睿;邵玉斌;杜慶治;熊新 | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 hmm 中文 分詞 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于HMM的中文分詞方法,屬于信息處理技術(shù)領(lǐng)域。
背景技術(shù)
現(xiàn)代社會,中文分詞在信息檢索、機器翻譯、信息過濾等信息處理中起著重要的作用,是信息處理的關(guān)鍵技術(shù)與難點。
一般地,作為主流的基于詞典的中文分詞雖然實現(xiàn)簡單,但是過于依賴詞典,容易造成歧義,導(dǎo)致錯誤切分,從而使得分詞準確率低;同樣地,基于統(tǒng)計模型的中文分詞雖然在一定程度上能排除歧義,但是分詞準確率也依賴于訓(xùn)練語料庫,從而不能夠達到理想的要求。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的局限和不足,提供一種基于HMM的中文分詞方法,創(chuàng)新性地引入了HMM和分詞詞典的融合對中文分詞方法進行改進,解決了單一的中文分詞方法分詞存在歧義,導(dǎo)致錯誤切分,以及切分效率低,從而使得分詞準確率低的現(xiàn)象,致力于提高分詞的準確性與可靠性。
本發(fā)明的技術(shù)方案是:一種基于HMM的中文分詞方法,利益HMM和分詞詞典的融合對中文分詞方法進行改進,具體步驟為:
①輸入待切分的詞串;
②使用分詞詞典用正向最大匹配的方法對輸入的待切分的詞串進行切分,得到若干種候選的分詞結(jié)果;
③引入HMM,對步驟②得到的若干種候選的分詞結(jié)果進行計算,得到最有可能的分詞結(jié)果。
步驟①所述的待切分的詞串可以為任意詞串。
步驟②所述的得到若干種候選的分詞結(jié)果的方法為全切分,用以確保切分結(jié)果集對正確切分結(jié)果100%的召回率。
所述全切分需要構(gòu)建一棵多叉樹,其中每一條從root到葉子節(jié)點的路徑均為一種分詞結(jié)果,所有root到葉子節(jié)點的路徑就是全切分的結(jié)果。
所述構(gòu)建多叉樹的方法為遞歸,即首先從待切分的詞串的第一個字開始切分,將剩下的詞串用正向最大匹配的方法與分詞字典進行匹配,列出所有可能;然后將切分的指針向右移動一個單位,將剩下的詞串用正向最大匹配的方法與分詞字典進行匹配,列出所有可能;以此類推,直到切分的指針向右移動一個單位后,左邊不是一個詞,則停止循環(huán)。
所述步驟③引入的HMM是一個五元組,即狀態(tài)值集合S,觀察值集合O,初始狀態(tài)概率矩陣PI,轉(zhuǎn)移概率矩陣A,發(fā)射概率矩陣B。
所述狀態(tài)值集合S為(B,M,E,S),作用是用來標(biāo)注HMM,分別代表該字在詞語中的位置,B代表該字是詞的起始字,M代表是詞的中間字,E代表是詞的結(jié)束字,S代表是該字為單詞,觀察值集合O為所有漢字以及標(biāo)點。
所述初始狀態(tài)概率矩陣PI是所述的待切分的詞串的第一個字屬于(B,M,E,S)這四種狀態(tài)的概率;轉(zhuǎn)移概率矩陣A是一個4×4的二維矩陣,矩陣的橫坐標(biāo)和縱坐標(biāo)為BEMS×BEMS,即每個狀態(tài)之間的轉(zhuǎn)移概率;發(fā)射概率矩陣B為每個漢字在每個狀態(tài)的概率。并且所述的初始狀態(tài)概率矩陣PI,轉(zhuǎn)移概率矩陣A,發(fā)射概率矩陣B都已經(jīng)通過訓(xùn)練為已知。
步驟③所述的計算若干種候選的分詞結(jié)果的算法為viterbi算法,結(jié)合步驟②得到的若干種候選的分詞結(jié)果,確定每個字的位置,最后通過計算得到概率最大的那個分詞結(jié)果,作為最終分詞的結(jié)果。
本發(fā)明的有益效果是:本發(fā)明與現(xiàn)有技術(shù)相比,通過引入HMM和分詞詞典的融合,主要解決了單一的中文分詞方法分詞存在歧義,導(dǎo)致錯誤切分,以及切分效率低,從而使得分詞準確率低的現(xiàn)象,致力于提高分詞的準確性與可靠性。
附圖說明
圖1是本發(fā)明步驟流程;
圖2是本發(fā)明步驟②流程圖;
圖3是本發(fā)明步驟③流程圖。
具體實施方式
下面結(jié)合附圖和具體實施方式,對本發(fā)明作進一步說明。
實施例1:如圖1-3所示,一種基于HMM的中文分詞方法,利益HMM和分詞詞典的融合對中文分詞方法進行改進,具體步驟為:
①輸入待切分的詞串;
②使用分詞詞典用正向最大匹配的方法對輸入的待切分的詞串進行切分,得到若干種候選的分詞結(jié)果;
③引入HMM,對步驟②得到的若干種候選的分詞結(jié)果進行計算,得到最有可能的分詞結(jié)果。
進一步地,步驟①所述的待切分的詞串可以為任意詞串。
進一步地,步驟②所述的得到若干種候選的分詞結(jié)果的方法為全切分,用以確保切分結(jié)果集對正確切分結(jié)果100%的召回率。
進一步地,所述全切分需要構(gòu)建一棵多叉樹,其中每一條從root到葉子節(jié)點的路徑均為一種分詞結(jié)果,所有root到葉子節(jié)點的路徑就是全切分的結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710933306.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





