[發(fā)明專利]一種基于HMM的中文分詞方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710933306.6 | 申請(qǐng)日: | 2017-10-10 |
| 公開(kāi)(公告)號(hào): | CN107861940A | 公開(kāi)(公告)日: | 2018-03-30 |
| 發(fā)明(設(shè)計(jì))人: | 龍華;吳睿;邵玉斌;杜慶治;熊新 | 申請(qǐng)(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 650093 云*** | 國(guó)省代碼: | 云南;53 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 hmm 中文 分詞 方法 | ||
1.一種基于HMM的中文分詞方法,其特征在于:利益HMM和分詞詞典的融合對(duì)中文分詞方法進(jìn)行改進(jìn),具體步驟為:
①輸入待切分的詞串;
②使用分詞詞典用正向最大匹配的方法對(duì)輸入的待切分的詞串進(jìn)行切分,得到若干種候選的分詞結(jié)果;
③引入HMM,對(duì)步驟②得到的若干種候選的分詞結(jié)果進(jìn)行計(jì)算,得到最有可能的分詞結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于HMM的中文分詞方法,其特征在于:步驟①所述的待切分的詞串可以為任意詞串。
3.根據(jù)權(quán)利要求1所述的基于HMM的中文分詞方法,其特征在于:步驟②所述的得到若干種候選的分詞結(jié)果的方法為全切分,用以確保切分結(jié)果集對(duì)正確切分結(jié)果100%的召回率。
4.根據(jù)權(quán)利要求3所述的基于HMM的中文分詞方法,其特征在于:所述全切分需要構(gòu)建一棵多叉樹(shù),其中每一條從root到葉子節(jié)點(diǎn)的路徑均為一種分詞結(jié)果,所有root到葉子節(jié)點(diǎn)的路徑就是全切分的結(jié)果。
5.根據(jù)權(quán)利要求4所述的基于HMM的中文分詞方法,其特征在于:所述構(gòu)建多叉樹(shù)的方法為遞歸,即首先從待切分的詞串的第一個(gè)字開(kāi)始切分,將剩下的詞串用正向最大匹配的方法與分詞字典進(jìn)行匹配,列出所有可能;然后將切分的指針向右移動(dòng)一個(gè)單位,將剩下的詞串用正向最大匹配的方法與分詞字典進(jìn)行匹配,列出所有可能;以此類推,直到切分的指針向右移動(dòng)一個(gè)單位后,左邊不是一個(gè)詞,則停止循環(huán)。
6.根據(jù)權(quán)利要求1所述的基于HMM的中文分詞方法,其特征在于:所述步驟③引入的HMM是一個(gè)五元組,即狀態(tài)值集合S,觀察值集合O,初始狀態(tài)概率矩陣PI,轉(zhuǎn)移概率矩陣A,發(fā)射概率矩陣B。
7.根據(jù)權(quán)利要求6所述的基于HMM的中文分詞方法,其特征在于:所述狀態(tài)值集合S為(B,M,E,S),作用是用來(lái)標(biāo)注HMM,分別代表該字在詞語(yǔ)中的位置,B代表該字是詞的起始字,M代表是詞的中間字,E代表是詞的結(jié)束字,S代表是該字為單詞,觀察值集合O為所有漢字以及標(biāo)點(diǎn)。
8.根據(jù)權(quán)利要求6所述的基于HMM的中文分詞方法,其特征在于:所述初始狀態(tài)概率矩陣PI是所述的待切分的詞串的第一個(gè)字屬于(B,M,E,S)這四種狀態(tài)的概率;轉(zhuǎn)移概率矩陣A是一個(gè)4×4的二維矩陣,矩陣的橫坐標(biāo)和縱坐標(biāo)為BEMS×BEMS,即每個(gè)狀態(tài)之間的轉(zhuǎn)移概率;發(fā)射概率矩陣B為每個(gè)漢字在每個(gè)狀態(tài)的概率;
并且所述的初始狀態(tài)概率矩陣PI,轉(zhuǎn)移概率矩陣A,發(fā)射概率矩陣B都已經(jīng)通過(guò)訓(xùn)練為已知。
9.根據(jù)權(quán)利要求1所述的基于HMM的中文分詞方法,其特征在于:步驟③所述的計(jì)算若干種候選的分詞結(jié)果的算法為viterbi算法,結(jié)合步驟②得到的若干種候選的分詞結(jié)果,確定每個(gè)字的位置,最后通過(guò)計(jì)算得到概率最大的那個(gè)分詞結(jié)果,作為最終分詞的結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710933306.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 聲音識(shí)別系統(tǒng)
- 基于DTW與HMM證據(jù)融合的特種車?guó)Q笛聲識(shí)別方法
- 基于HMM的小區(qū)切換決策算法及裝置
- 基于隱馬爾克夫模型的食品安全風(fēng)險(xiǎn)預(yù)測(cè)方法
- 基于云端的設(shè)備及其操作方法
- 一種基于變分BP-HMM的人的行為軌跡識(shí)別方法
- 一種基于分層隱馬爾科夫模型的定位方法
- 基于連續(xù)混合高斯HMM模型的地名語(yǔ)音信號(hào)識(shí)別方法
- 病癥評(píng)估方法、終端設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種基于HMM的刷單預(yù)測(cè)系統(tǒng)及方法





