[發明專利]漢語文本全分詞的一種遞歸方法無效
| 申請號: | 200910177166.X | 申請日: | 2009-09-28 |
| 公開(公告)號: | CN101655841A | 公開(公告)日: | 2010-02-24 |
| 發明(設計)人: | 章森 | 申請(專利權)人: | 章森 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100022北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢語 文本 分詞 一種 遞歸 方法 | ||
1.本發明涉及一種漢語文本的全切分技術,用來實現對漢語文本的全切分,主要特征包括: 漢語文本的全切分方法、全切分的剪枝、基于全切分的歧義消除方法。
2.根據權利要求1,漢語文本的全切分方法的技術特征是:基于遞歸技術,逐步將長度為N 的漢字字符串的全切分問題轉化為長度更短的漢字字符串的全切分問題,直到轉化為長 度為1的漢字字符串的全切分問題,然后再通過組合和添加兩種方式實現長度為N的漢 字字符串的全切分。
3.根據權利要求1,全切分剪枝的技術特征是:基于詞典以及子串Si的全切分形式,考察 其中的每一種切分形式。如果在子串Si的某一種切分形式Si*中存在某個切分單元Yj既不 屬于詞典,也不是詞典中某個詞條的前綴,那么,刪除子串Si的切分形式Si*,在構造子 串Si+1的全切分時,Si的切分形式Si*不再被擴展。
4.根據權利要求1,基于全切分的歧義消除方法的技術特征是:首先對該子串進行全切分, 得到其所有全切分形式,然后,基于本文介紹的剪枝方法對全切分結果進行剪枝,得到 精簡后的全切分結果。最后,利用詞頻的統計知識從精簡后的全切分結果中選出概率最 大的切分形式??紤]到漢語分詞中的最少分詞原則,在選擇概率最大的切分形式時應該 對分詞數目較少的切分形式賦予較大的權重,反之,則賦予較小的權重。經過多次實驗 發現,將詞頻縮小1000倍左右,再利用馬爾可夫鏈計算每個分詞形式的概率,可以得到 滿意的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于章森,未經章森許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910177166.X/1.html,轉載請聲明來源鉆瓜專利網。





