[發(fā)明專利]一種供機(jī)器語言翻譯的通用數(shù)碼語義庫有效
| 申請(qǐng)?zhí)枺?/td> | 200810011904.9 | 申請(qǐng)日: | 2008-06-19 |
| 公開(公告)號(hào): | CN101303692A | 公開(公告)日: | 2008-11-12 |
| 發(fā)明(設(shè)計(jì))人: | 徐文和 | 申請(qǐng)(專利權(quán))人: | 徐文和 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 110000遼寧省沈陽市沈*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 機(jī)器語言 翻譯 通用 數(shù)碼 語義 | ||
技術(shù)領(lǐng)域:
本發(fā)明涉及各種語言機(jī)器翻譯,尤其是用于機(jī)器的數(shù)碼語言語義 庫。
背景技術(shù):
目前語言機(jī)器翻譯所使用的依據(jù)為字庫(GB2312)與詞庫 (GB1375),詞庫的主要內(nèi)容來源是詞典,從編碼程序所使用的無論 音碼、形碼、音形碼都是詞典的特征。而詞典,歷來是為人服務(wù)的, 只作參考,判斷、選擇學(xué)習(xí)使用,以它為基礎(chǔ),就需要使機(jī)器具有像 人一樣的思維判斷能力。現(xiàn)有辦法是設(shè)置各種技術(shù)參數(shù),識(shí)別模塊和 矢量模塊,由于語言是一門相當(dāng)復(fù)雜的科學(xué),專家們都說是扯不斷理 還亂,很難通過一些設(shè)置的語義樹、實(shí)量剪枝、虛量剪枝各種參數(shù)等 技術(shù)過程解決所有的問題,所以最終翻譯的效果可想而知。
目前的機(jī)器智能有限,自然語言信息處理的主要目的是使機(jī)器懂 得和理解人類的自然語言,也就是使機(jī)器能模擬人類的語言機(jī)制,而 目前階段寄希望機(jī)器能達(dá)到與人類一樣智商是極不現(xiàn)實(shí)的。
目前普遍采用的技術(shù)是提取原文與詞庫比對(duì)切分,根據(jù)詞生成語 義單元表示庫(樹)將識(shí)別詞展開進(jìn)行語義分析、剪切、選擇最后確 定語義,稱之謂基于語義翻譯。下面引用申請(qǐng)?zhí)枺?00310011433.X 一段原文“提取原文一句:根據(jù)語義單元表示庫(樹),對(duì)該句進(jìn)行
分析,從而得到該句的句義表達(dá)式,根據(jù)語義單元表示庫,將該 句義表達(dá)式用目的的語種(目的語種詞庫)的表達(dá)展開,將展開后的 句子作為譯文輸出”(說明書第一頁第二十行開始至二十三行)本段 內(nèi)容揭示目前所有語言翻譯普遍采用的方法。
眾所周知,語言是由詞組成的,詞是由音、形、義構(gòu)成的,其中 音與形是各語種特征,而義是在各語種之間通用的,只有義的存在各 語種之間才能互通。如果只把義存儲(chǔ)在機(jī)器內(nèi),任何語種只要把音與 形貼上去,就成為任何語種的完整語言了。
單純的義盡管能在各種語言之間隨意互換還遠(yuǎn)不能達(dá)到翻譯的 目的,還要適用各語種自己的語言習(xí)慣,這就需要語種之間通過句法 關(guān)系調(diào)整,而句法關(guān)系又需要每個(gè)詞詞性特征、語義特征、語言環(huán)境, 沒有這些句法關(guān)系是無法實(shí)現(xiàn)的。
針對(duì)上述情況,本發(fā)明提供了一種綜合解決方法。
發(fā)明內(nèi)容:
本發(fā)明的一個(gè)方面,提供用于機(jī)器語言翻譯的數(shù)碼語義庫的數(shù) 碼,是由阿拉伯?dāng)?shù)碼組成、縱向分為若干個(gè)檔次,第一檔為兩位數(shù), 從00~99,第二檔為四位數(shù)從0000~9999,它是第一檔次任何一組 數(shù)值擴(kuò)大100倍,以此類推,每增加一檔次都增兩位數(shù),具體表示如 下:例第一檔次中的99在第二檔下分9900~9999,同樣第二檔次9999 在第三檔次下分999900~999999,如果共設(shè)九個(gè)檔次,那么共含有 100億億個(gè)數(shù)碼組,也就說可設(shè)100億億個(gè)語義點(diǎn)。也可以用字母表 示或符號(hào)表示,第一檔AA、AB、AC……,第二檔AAAA、AAAB、AAAC……, 第三檔AAAAAA、AAAAAB、AAAAAC……。每檔次可以是1位數(shù),也可 以是三位數(shù),位數(shù)少檔次多、位數(shù)多檔次少。
本發(fā)明的另一個(gè)方面,提供的一種供機(jī)器語言翻譯應(yīng)用數(shù)碼語言 語義庫,語義庫內(nèi)的語義,沒有語音標(biāo)識(shí)語義,也沒有字型標(biāo)識(shí)語義, 只有數(shù)碼組供機(jī)器識(shí)別、運(yùn)算,所以稱為機(jī)器數(shù)碼語言。以語義為識(shí) 別目的的語義庫,語義庫內(nèi)容是由若干個(gè)語義單元組成,每個(gè)語義單 元只有一個(gè)語義,也就是本發(fā)明稱之謂基本語義點(diǎn)。由于沒有音碼、 形碼,只有語義,所以本語義庫內(nèi)的基本語義點(diǎn)只要與任何一種語言 的語義點(diǎn)相同,該語種相對(duì)應(yīng)的音、形即為該語種語言。
本發(fā)明的另一個(gè)方面,提供了一種機(jī)器識(shí)別每個(gè)基本語義點(diǎn)的外 部特征——即詞性特征、背景領(lǐng)域的方法,本發(fā)明對(duì)每個(gè)基本語義點(diǎn) 都配有一組數(shù)碼,縱向的數(shù)碼排列設(shè)立若干個(gè)檔,第一檔兩位數(shù),在 這范圍內(nèi)基本語義點(diǎn)代表最高領(lǐng)域和最大詞性區(qū),每增加兩位數(shù)為下 一個(gè)檔次,在這一范圍內(nèi)基本語義點(diǎn)是上一檔次領(lǐng)域所屬范圍,其詞 性特征為中詞性區(qū)或者小詞性區(qū),同檔次內(nèi)只有最后兩位數(shù)之間數(shù)值 差,在這一范圍內(nèi)所有基本語義點(diǎn)、語義相近、詞性相同領(lǐng)域相同, 因此彼此被稱為并列關(guān)系。模向不同檔次之間差別是第一位數(shù)不同, 在這一范圍內(nèi),所有的基本語義點(diǎn)詞性不同領(lǐng)域不同,不同檔次之間 關(guān)系被稱為交叉關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于徐文和,未經(jīng)徐文和許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810011904.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:旋轉(zhuǎn)切削工具
- 下一篇:分析集成電路上功率分布中的電壓降的方法
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種自動(dòng)校正數(shù)碼相片顯示的方法
- 數(shù)碼相機(jī)用支架和數(shù)據(jù)相機(jī)系統(tǒng)
- 一種數(shù)碼相框的控制方法及系統(tǒng)
- 在數(shù)碼相框上實(shí)現(xiàn)存儲(chǔ)介質(zhì)的虛擬化方法
- 一種自行車防盜數(shù)碼鎖
- 一種溫度濕度探頭隱藏式數(shù)碼像框
- 輕小型無人機(jī)機(jī)載多視立體航空遙感系統(tǒng)
- 遠(yuǎn)程工程項(xiàng)目數(shù)碼相片管理與校驗(yàn)方法及裝置
- 一種測(cè)試數(shù)碼管的裝置
- 一種防LED數(shù)碼管與數(shù)碼管支架松脫結(jié)構(gòu)





