[發(fā)明專利]四層結(jié)構(gòu)的中文文本正則化體系及實現(xiàn)有效
| 申請?zhí)枺?/td> | 200910089359.X | 申請日: | 2009-07-17 |
| 公開(公告)號: | CN101661462A | 公開(公告)日: | 2010-03-03 |
| 發(fā)明(設(shè)計)人: | 董遠(yuǎn);周濤 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28;G06N1/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 結(jié)構(gòu) 中文 文本 正則 體系 實現(xiàn) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于計算機人機交流領(lǐng)域,涉及多層次結(jié)構(gòu)的中文文本正則化體系,同時支持C/S (Client/Server)方式的Web訪問。本發(fā)明引入了中文文本中的非標(biāo)準(zhǔn)詞的概念,并在系統(tǒng)分 析和歸納的前提下,對其進行有效分類,采用條件隨機場等機器學(xué)習(xí)的方法,提出了一種包 括非標(biāo)準(zhǔn)詞的識別,消岐以及標(biāo)準(zhǔn)讀音生成的四層中文文本正則化模型,適用于語音合成, 機器翻譯等實際應(yīng)用。
背景技術(shù)
隨著信息技術(shù)、語言技術(shù)以及計算機技術(shù)的發(fā)展,人們對文本處理的要求也越來越高, 尤其是中文語言,正擁有越來越廣泛的市場和應(yīng)用前景。為了保證中文文本在各個領(lǐng)域的方 便應(yīng)用,就應(yīng)該首先在對文本進行正則化處理,以便為后續(xù)比如語音合成,人工智能等方面 的應(yīng)用打下基礎(chǔ)。在真實的中文文本中,含有大量的非標(biāo)準(zhǔn)詞(None-Standard?Words),比如 阿拉伯?dāng)?shù)字,英文字符,各種符號等等,這些非標(biāo)準(zhǔn)詞的讀音不能通過正常的拼音規(guī)則得到, 需要通過特定的方法把這些特殊字符轉(zhuǎn)換成對應(yīng)的漢字,進而得到其正確的讀音。并且這些 非標(biāo)準(zhǔn)詞往往是用戶關(guān)注的焦點,比如日期、電話號碼、機構(gòu)名稱等等。因此文本正則化的 好壞將直接影響文本乃至語音的處理質(zhì)量。
文本正則化的困難在于計算機不能理解輸入文本的準(zhǔn)確語義,無法通過句子或詞語的意 思來指導(dǎo)計算機識別特殊符號并給出拼音信息,所以必須從特殊符號出發(fā),提取有用的上下 文信息,歸納出在特定環(huán)境下的不同處理策略。一個非標(biāo)準(zhǔn)詞在不同的上下文中可能對應(yīng)不 同的標(biāo)準(zhǔn)發(fā)音。比如“12”作為數(shù)字讀作“十二”,在電話號碼中讀作“幺二”,而在“2米 12”中則讀作“兩米一二”。因此,在正則化的各個步驟中,消岐可以算得上是文本正則化的 重點也是難點。根據(jù)上下文的不同含義,非標(biāo)準(zhǔn)詞有著不用程度的歧義,再加上非標(biāo)準(zhǔn)詞的 類型多種多樣,無法也不可能完全覆蓋全部,因此文本正則化也是中文文本處理的難點。
文本正則化的典型處理方式是基于規(guī)則的方法,比如LDC(Linguistic?Data?Consortium) 的Text?Conditioning?Tools。基于規(guī)則的方法比較直觀,但也有明顯的缺點:規(guī)則難于書寫、 維護,推廣性也很一般。后來機器學(xué)習(xí)的方法也被廣泛應(yīng)用到文本正則化的處理中,對于一 個歧義消除的問題,機器學(xué)習(xí)的方法體現(xiàn)了巨大的優(yōu)勢。比如,決策樹應(yīng)用于英語的文本正 則化,支持向量機用于波斯語的非標(biāo)準(zhǔn)詞分類,Winnow用于泰國語的文本分析。
特殊符號和傳統(tǒng)的統(tǒng)計語言學(xué)不同的規(guī)律,所以不適合采用統(tǒng)計的方法。另外關(guān)于特殊 符號,國內(nèi)外都很少有大規(guī)模的標(biāo)注語料供計算機訓(xùn)練,所以中文文本中的特殊符號的處理 原則上都是采用基于規(guī)則的方法,把對非標(biāo)準(zhǔn)詞的處理與后續(xù)的分詞,詞性標(biāo)注以及命名實 體識別等相結(jié)合,以一種統(tǒng)一的文本傳輸結(jié)構(gòu)進行處理。
本發(fā)明通過分析大規(guī)模語料庫中非漢字串的分布情況,制定了一個全面的非標(biāo)準(zhǔn)詞分類 標(biāo)準(zhǔn)。提出了基于機器學(xué)習(xí)方法的中文文本正則化四層體系,主要包括非標(biāo)準(zhǔn)詞識別,歧義 消除和標(biāo)準(zhǔn)語音生成三個方面。并在非標(biāo)準(zhǔn)詞的歧義消除部分的兩個步驟中分別引入了條件 隨機場模型和基于錯誤驅(qū)動的機器學(xué)習(xí)的方法。另外,本發(fā)明還支持C/S方式訪問,直接處 理真實文本,無需其他標(biāo)注等工作。
發(fā)明的內(nèi)容
為了提高中文文本正則化的準(zhǔn)確率和召回率,本發(fā)明提出了一種四層結(jié)構(gòu)的中文文本正 則化系統(tǒng)。該系統(tǒng)首先采用有限自動機(FSA,F(xiàn)inite?State?Automata)的原理,從真實文本中 識別非標(biāo)準(zhǔn)詞,并給非標(biāo)準(zhǔn)詞做標(biāo)記,表明其具體類別。同時把做完標(biāo)記的非標(biāo)準(zhǔn)詞分為兩 大類,分別是基本非標(biāo)準(zhǔn)詞和歧義非標(biāo)準(zhǔn)詞。基本非標(biāo)準(zhǔn)詞經(jīng)過第一階段后直接進入第四階 段——標(biāo)注拼音生成階段。至于歧義非標(biāo)準(zhǔn)詞,對其中出現(xiàn)頻率最高的,占數(shù)量最多的5個 類別采用條件隨機場模型的方法建模,得到歧義非標(biāo)準(zhǔn)詞的具體子分類;對于剩下的不同類 型的歧義非標(biāo)準(zhǔn)詞,根據(jù)其上下文具體情況,利用不同的規(guī)則進行處理。同時,對這一階段 的結(jié)果進行分析,提取其中部分錯誤結(jié)果用于下一階段。在第三階段中利用基于錯誤的規(guī)則 學(xué)習(xí)的方法,對錯誤進行歸類,從而制定最恰當(dāng)?shù)囊?guī)則,進一步提高其子分類的正確性,最 后還是通過第四階段生成正確的拼音。前三個階段是分析階段,分析結(jié)果作為標(biāo)準(zhǔn)發(fā)音生成 階段的輸入,輸出則為正則化的文本,標(biāo)準(zhǔn)讀音階段是用一一映射的規(guī)則方法予以實現(xiàn)的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910089359.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種有機光電子器件及其制備方法
- 下一篇:臥式螺桿千斤頂
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





