[發(fā)明專利]漢語文本全分詞的一種遞歸方法無效
| 申請?zhí)枺?/td> | 200910177166.X | 申請日: | 2009-09-28 |
| 公開(公告)號: | CN101655841A | 公開(公告)日: | 2010-02-24 |
| 發(fā)明(設(shè)計)人: | 章森 | 申請(專利權(quán))人: | 章森 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100022北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 漢語 文本 分詞 一種 遞歸 方法 | ||
所屬技術(shù)領(lǐng)域
本發(fā)明涉及一種漢語文本的全切分技術(shù),屬于計算機應(yīng)用和中文信息處理領(lǐng)域。
背景技術(shù)
中文文本沒有類似英文空格之類的顯式表標示詞的邊界標志。漢語自動分詞的任務(wù),通 俗地說,就是要由機器在中文文本中詞與詞之間自動加上空格。中國正在向信息化社會迅速 前進,其突出表征是Internet上中文網(wǎng)頁的急劇增加和中文電子出版物、中文數(shù)字圖書館的 迅速普及。而漢語自動分詞是任何中文自然語言處理系統(tǒng)都難以回避的第一道基本“工序”, 其作用十分重要。只有逾越這個障礙,中文處理系統(tǒng)才稱得上初步打上了“智能”的印記, 構(gòu)建于詞平面之上的各種后續(xù)語言分析手段才有展示身手的舞臺。否則,系統(tǒng)便只能被束縛 在字平面上,成不了太大氣候。具體來說,自動分詞在很多現(xiàn)實應(yīng)用領(lǐng)域(中文文本的自動 檢索、過濾、分類及摘要,中文文本的自動校對,漢外機器翻譯,漢字識別與漢語語音識別 的后處理,漢語語音合成,以句子為單位的漢字鍵盤輸入,漢字簡繁體轉(zhuǎn)換等)中都扮演著 極為重要的角色。
中文分詞是把一個無間隔的漢字串映射到有間隔的漢字詞串的問題。該問題的難點在于 歧義切分和未登錄詞問題。目前通常的分詞方法有三大類:機械分詞、統(tǒng)計分詞和規(guī)則分詞, 或者幾種方法的結(jié)合運用。漢語分詞中的全切分問題是指對于長度為N的漢字字符串,在不 考慮語義的情況下,找出其所有可能的切分形式。隨著字符串長度N的增長,其全切分形式 的數(shù)目呈指數(shù)級增長。針對這個問題,已經(jīng)提出了基于有限自動機和無向圖的求解算法,但 這些算法一般使用詞頻作為邊的權(quán)值或狀態(tài)轉(zhuǎn)移的重要依據(jù),因此,其得出的結(jié)果是依賴于 詞頻或詞庫的切分結(jié)果,而不是理論上的所有可能的切分形式。從理論上說,漢字字符串的 全切分是不依賴于任何詞典或詞頻的,其假設(shè)前提是:任何有限個漢字可以切分為一個漢字 詞或作為一個切分單位。因此,其全切分的形式在理論上有2N-1種。針對全切分問題,本發(fā) 明構(gòu)造性地給出了實現(xiàn)全切分的一種遞歸方法。該方法與基于有限自動機或無向圖的全切分 方法相比,更加簡潔高效,可應(yīng)用于漢語文本分詞或漢語拼音分詞等。
發(fā)明內(nèi)容
本發(fā)明是一種漢語文本的全切分技術(shù),用來實現(xiàn)對漢語文本的全切分,主要包括:漢語 文本的全切分方法、全切分的剪枝、基于全切分的歧義消除。
1.長度為N的漢字字符串的全切分方法CSA如下:(本文下稱CSA方法)
(1)對于長度為N的漢字字符串SN,取其第一個字符X1,構(gòu)造X1的全切分(只有一種, 即自身)。為方便起見,我們記漢字字符串SN的子串Si=X1X2…Xi(1≤i≤N)
(2)對于i=2,…,N,SN的子串Si-1的全切分已經(jīng)得到,對于子串Si-1的每一種切分形式, 按照定理1中的方法構(gòu)造出2種子串Si的切分形式。從而得到子串Si的2i-1種切分形式。
(3)當(dāng)i=N時,我們得到漢字字符串SN的所有2N-1種切分形式。
(4)列出漢字字符串SN的所有2N-1種切分形式,結(jié)束。
例如,我們已知長度為3的漢字字符串全切分形式有4種:(1)(1)(1),(2)(1), (1)(2),(3),其中括號內(nèi)的數(shù)字表示一個切分單元里漢字字符的數(shù)目。那么,根據(jù)上 述全切分方法,可以得到長度為4的漢字字符串全切分形式有8種,分別為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于章森,未經(jīng)章森許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910177166.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





