[發(fā)明專利]中文簡繁體字文件轉(zhuǎn)換裝置無效
| 申請?zhí)枺?/td> | 96103701.6 | 申請日: | 1996-03-21 |
| 公開(公告)號(hào): | CN1102779C | 公開(公告)日: | 2003-03-05 |
| 發(fā)明(設(shè)計(jì))人: | 郭俊桔 | 申請(專利權(quán))人: | 松下電器產(chǎn)業(yè)株式會(huì)社 |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28 |
| 代理公司: | 中國專利代理(香港)有限公司 | 代理人: | 王勇,葉愷東 |
| 地址: | 日本大阪*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 簡繁體 文件 轉(zhuǎn)換 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及中文簡體字文件和繁體字文件的轉(zhuǎn)換裝置。
背景技術(shù)
近幾年來,中國大陸和臺(tái)灣之間的交流頻繁,兩者間的文件來往也隨之增加,但是,由于長達(dá)40年間沒有交往,兩地不僅使用的漢字字體不同,就是單詞和詞匯(日常使用的單個(gè)或多個(gè)單詞的使用方法)等也有很大不同,因此,難以相互理解對方使用的文件。例如,臺(tái)灣將laser?printer叫作“雷射印表機(jī)”,而大陸則稱之為“激光打印機(jī)”。因此,大陸使用的簡體字文件和臺(tái)灣使用的繁體字文件之間相互轉(zhuǎn)換的需要大量增加,在簡體字文件和繁體字文件間的相互轉(zhuǎn)換中,需要解決以下的技術(shù)和語言方面的困難。
(1)簡體字的常用字?jǐn)?shù)大約是8000個(gè),而常用的繁體字比常用簡體字多。例如,計(jì)算機(jī)領(lǐng)域的常用繁體字就有13,053個(gè)。所以,會(huì)有若干個(gè)繁體字對應(yīng)于一個(gè)簡體字的情況,如簡體字的“后”與繁體字的“后”和“後”相對應(yīng)。因此,在從簡體字文件轉(zhuǎn)換至繁體字文件的情況下,需要選擇適當(dāng)?shù)姆斌w字。
(2)由于社會(huì)、文化的差異,單詞及其用法也不相同。例如,用于表現(xiàn)日常所說質(zhì)量程度的“水準(zhǔn)(技術(shù)水平等)”,中國大陸稱為“水平”,而臺(tái)灣則稱為“水準(zhǔn)”。
所以,研制開發(fā)了用簡體字寫的文件和用繁體字寫的文件的轉(zhuǎn)換裝置。
先有中文簡繁體字文件轉(zhuǎn)換裝置有諸如中華民國1994年第7次計(jì)算機(jī)語言學(xué)研究會(huì)論文集第187至201頁的“A?Text?Conversion?SystemBetween?Simplified?and?Complex?Chinese?Characters?Based?on?OCRApproaches”所述的裝置。該論文說明了從簡體字文件到繁體字文件轉(zhuǎn)換裝置的實(shí)例。圖1顯示了這種裝置的結(jié)構(gòu)。在該圖中,標(biāo)號(hào)100是可以輸入以簡體字文件或繁體字文件作為原始文件的原始文件輸入單元。標(biāo)號(hào)300是存儲(chǔ)各個(gè)文字使用頻度的文字使用頻度表。標(biāo)號(hào)350是存儲(chǔ)每個(gè)文字特征值的特征數(shù)據(jù)庫。標(biāo)號(hào)200是從圖象數(shù)據(jù)中抽取出文字的文字切取單元。標(biāo)號(hào)210是計(jì)算并抽取從圖象數(shù)據(jù)中所選出的文字的特征值的特征抽出單元。標(biāo)號(hào)220是參照文字使用頻度表300及特征數(shù)據(jù)庫350,進(jìn)行文字對比的對比單元。標(biāo)號(hào)500是存儲(chǔ)單詞的單詞轉(zhuǎn)換裝置。標(biāo)號(hào)510是存儲(chǔ)一般文字信息的基本裝置。標(biāo)號(hào)520是存儲(chǔ)簡體字及繁體字文字代碼的代碼對應(yīng)表。標(biāo)號(hào)530是存儲(chǔ)事先根據(jù)統(tǒng)計(jì)等求出的相鄰文字之間連接頻度的BIGRAM表。標(biāo)號(hào)400是將候補(bǔ)漢字或單詞轉(zhuǎn)換為文字網(wǎng)絡(luò)(Word?lattice:指正在處理的各候補(bǔ)的漢字、單詞等形成的網(wǎng)絡(luò)結(jié)構(gòu))的中文語言裝置,它具有單詞等轉(zhuǎn)換裝置和文字修正裝置。標(biāo)號(hào)420是尋找最佳轉(zhuǎn)換路徑的漢字和單詞轉(zhuǎn)換單元。標(biāo)號(hào)410是通過人工等方法修正誤識(shí)別文字的文字修正單元。標(biāo)號(hào)600是輸出進(jìn)行轉(zhuǎn)換后所得目標(biāo)文件的輸出單元。
下面以圖2(a)所示的簡體字文件為例,說明在以上中文簡繁體字文件轉(zhuǎn)換裝置中從簡體字轉(zhuǎn)換到繁體字的轉(zhuǎn)換順序。
一旦由原始文件輸入單元100輸入圖2(a)所示的簡體字文件,就通過OCR(光學(xué)字符讀取裝置)將作為圖形的圖象讀入OCR裝置。并且,在通過文字切取單元200抽出各文字的圖象之后,由特征抽出單元210計(jì)算出各文字的特征值。利用對比單元220,參照文字使用頻度表300以及特征數(shù)據(jù)庫350檢出候補(bǔ)的簡體字。然后進(jìn)行文字轉(zhuǎn)換及后處理裝置的操作。首先,在中文語言裝置400中參照代碼對應(yīng)表520取出如圖2(b)所示的各個(gè)相應(yīng)的候補(bǔ)字。將已經(jīng)取出的各候補(bǔ)的目標(biāo)漢字組合作為檢索鍵,檢索單詞轉(zhuǎn)換裝置500及基本裝置510,取出圖2(c)所示的候補(bǔ)單詞。按照圖2(d)所示的文字網(wǎng)絡(luò)組織已經(jīng)取出的候補(bǔ)單詞。由漢字和單詞轉(zhuǎn)換單元420參照BIGRAM表530(根據(jù)語言資料庫(CORPUS)相鄰的兩個(gè)文字或單詞的使用頻度),根據(jù)Statistical?bigram?Markov?Language?Model(采用統(tǒng)計(jì)式BIGRAM的馬爾可夫語言模型)從文字網(wǎng)絡(luò)中取出圖2(e)所示的最佳的、也即,取出可能性最高的轉(zhuǎn)換路徑后,由輸出單元600輸出。
下面簡要說明獲得最佳轉(zhuǎn)換路徑的方法。
利用BIGRAM的統(tǒng)計(jì)數(shù)據(jù)(P(Ci|Ci-1)和(P(Ci用|Si)),找出能使下述函數(shù)值為最大的路徑。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于松下電器產(chǎn)業(yè)株式會(huì)社,未經(jīng)松下電器產(chǎn)業(yè)株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/96103701.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 圖像轉(zhuǎn)換設(shè)備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設(shè)備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





