[發(fā)明專利]四層結(jié)構(gòu)的中文文本正則化體系及實現(xiàn)有效

申請?zhí)枺?/td>	200910089359.X	申請日：	2009-07-17
公開（公告）號：	CN101661462A	公開（公告）日：	2010-03-03
發(fā)明（設(shè)計）人：	董遠(yuǎn);周濤	申請（專利權(quán)）人：	北京郵電大學(xué)
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/28;G06N1/00
代理公司：	暫無信息	代理人：	暫無信息
地址：	100876***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	結(jié)構(gòu) 中文文本正則體系實現(xiàn)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明屬于計算機人機交流領(lǐng)域，涉及多層次結(jié)構(gòu)的中文文本正則化體系，同時支持C/S (Client/Server)方式的Web訪問。本發(fā)明引入了中文文本中的非標(biāo)準(zhǔn)詞的概念，并在系統(tǒng)分析和歸納的前提下，對其進行有效分類，采用條件隨機場等機器學(xué)習(xí)的方法，提出了一種包括非標(biāo)準(zhǔn)詞的識別，消岐以及標(biāo)準(zhǔn)讀音生成的四層中文文本正則化模型，適用于語音合成，機器翻譯等實際應(yīng)用。

背景技術(shù)

隨著信息技術(shù)、語言技術(shù)以及計算機技術(shù)的發(fā)展，人們對文本處理的要求也越來越高，尤其是中文語言，正擁有越來越廣泛的市場和應(yīng)用前景。為了保證中文文本在各個領(lǐng)域的方便應(yīng)用，就應(yīng)該首先在對文本進行正則化處理，以便為后續(xù)比如語音合成，人工智能等方面的應(yīng)用打下基礎(chǔ)。在真實的中文文本中，含有大量的非標(biāo)準(zhǔn)詞(None-Standard?Words)，比如阿拉伯?dāng)?shù)字，英文字符，各種符號等等，這些非標(biāo)準(zhǔn)詞的讀音不能通過正常的拼音規(guī)則得到，需要通過特定的方法把這些特殊字符轉(zhuǎn)換成對應(yīng)的漢字，進而得到其正確的讀音。并且這些非標(biāo)準(zhǔn)詞往往是用戶關(guān)注的焦點，比如日期、電話號碼、機構(gòu)名稱等等。因此文本正則化的好壞將直接影響文本乃至語音的處理質(zhì)量。

文本正則化的困難在于計算機不能理解輸入文本的準(zhǔn)確語義，無法通過句子或詞語的意思來指導(dǎo)計算機識別特殊符號并給出拼音信息，所以必須從特殊符號出發(fā)，提取有用的上下文信息，歸納出在特定環(huán)境下的不同處理策略。一個非標(biāo)準(zhǔn)詞在不同的上下文中可能對應(yīng)不同的標(biāo)準(zhǔn)發(fā)音。比如“12”作為數(shù)字讀作“十二”，在電話號碼中讀作“幺二”，而在“2米 12”中則讀作“兩米一二”。因此，在正則化的各個步驟中，消岐可以算得上是文本正則化的重點也是難點。根據(jù)上下文的不同含義，非標(biāo)準(zhǔn)詞有著不用程度的歧義，再加上非標(biāo)準(zhǔn)詞的類型多種多樣，無法也不可能完全覆蓋全部，因此文本正則化也是中文文本處理的難點。

文本正則化的典型處理方式是基于規(guī)則的方法，比如LDC(Linguistic?Data?Consortium) 的Text?Conditioning?Tools。基于規(guī)則的方法比較直觀，但也有明顯的缺點：規(guī)則難于書寫、維護，推廣性也很一般。后來機器學(xué)習(xí)的方法也被廣泛應(yīng)用到文本正則化的處理中，對于一個歧義消除的問題，機器學(xué)習(xí)的方法體現(xiàn)了巨大的優(yōu)勢。比如，決策樹應(yīng)用于英語的文本正則化，支持向量機用于波斯語的非標(biāo)準(zhǔn)詞分類，Winnow用于泰國語的文本分析。

特殊符號和傳統(tǒng)的統(tǒng)計語言學(xué)不同的規(guī)律，所以不適合采用統(tǒng)計的方法。另外關(guān)于特殊符號，國內(nèi)外都很少有大規(guī)模的標(biāo)注語料供計算機訓(xùn)練，所以中文文本中的特殊符號的處理原則上都是采用基于規(guī)則的方法，把對非標(biāo)準(zhǔn)詞的處理與后續(xù)的分詞，詞性標(biāo)注以及命名實體識別等相結(jié)合，以一種統(tǒng)一的文本傳輸結(jié)構(gòu)進行處理。

本發(fā)明通過分析大規(guī)模語料庫中非漢字串的分布情況，制定了一個全面的非標(biāo)準(zhǔn)詞分類標(biāo)準(zhǔn)。提出了基于機器學(xué)習(xí)方法的中文文本正則化四層體系，主要包括非標(biāo)準(zhǔn)詞識別，歧義消除和標(biāo)準(zhǔn)語音生成三個方面。并在非標(biāo)準(zhǔn)詞的歧義消除部分的兩個步驟中分別引入了條件隨機場模型和基于錯誤驅(qū)動的機器學(xué)習(xí)的方法。另外，本發(fā)明還支持C/S方式訪問，直接處理真實文本，無需其他標(biāo)注等工作。

發(fā)明的內(nèi)容

為了提高中文文本正則化的準(zhǔn)確率和召回率，本發(fā)明提出了一種四層結(jié)構(gòu)的中文文本正則化系統(tǒng)。該系統(tǒng)首先采用有限自動機(FSA，F(xiàn)inite?State?Automata)的原理，從真實文本中識別非標(biāo)準(zhǔn)詞，并給非標(biāo)準(zhǔn)詞做標(biāo)記，表明其具體類別。同時把做完標(biāo)記的非標(biāo)準(zhǔn)詞分為兩大類，分別是基本非標(biāo)準(zhǔn)詞和歧義非標(biāo)準(zhǔn)詞。基本非標(biāo)準(zhǔn)詞經(jīng)過第一階段后直接進入第四階段——標(biāo)注拼音生成階段。至于歧義非標(biāo)準(zhǔn)詞，對其中出現(xiàn)頻率最高的，占數(shù)量最多的5個類別采用條件隨機場模型的方法建模，得到歧義非標(biāo)準(zhǔn)詞的具體子分類；對于剩下的不同類型的歧義非標(biāo)準(zhǔn)詞，根據(jù)其上下文具體情況，利用不同的規(guī)則進行處理。同時，對這一階段的結(jié)果進行分析，提取其中部分錯誤結(jié)果用于下一階段。在第三階段中利用基于錯誤的規(guī)則學(xué)習(xí)的方法，對錯誤進行歸類，從而制定最恰當(dāng)?shù)囊?guī)則，進一步提高其子分類的正確性，最后還是通過第四階段生成正確的拼音。前三個階段是分析階段，分析結(jié)果作為標(biāo)準(zhǔn)發(fā)音生成階段的輸入，輸出則為正則化的文本，標(biāo)準(zhǔn)讀音階段是用一一映射的規(guī)則方法予以實現(xiàn)的。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué)，未經(jīng)北京郵電大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910089359.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】