[發(fā)明專利]表意構(gòu)件識別提取和基于表意構(gòu)件的機(jī)譯人校互動翻譯方法有效
| 申請?zhí)枺?/td> | 201310042053.5 | 申請日: | 2013-01-21 |
| 公開(公告)號: | CN103106195B | 公開(公告)日: | 2018-12-11 |
| 發(fā)明(設(shè)計(jì))人: | 劉樹根 | 申請(專利權(quán))人: | 劉樹根 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 516002 廣東省惠*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 表意 構(gòu)件 識別 提取 基于 機(jī)譯人校 互動 翻譯 方法 | ||
1.一種表意構(gòu)件識別提取方法,利用相同內(nèi)容的多語種或雙語文字版本的語料作句對齊后的雙語句對庫,其特征是從讀句配骼入手,對沒有匹配句骼的句對進(jìn)行查配標(biāo)運(yùn)作、詞串識別、標(biāo)注句艙,進(jìn)而作艙檢測、提取艙模、收存意群串,將識別提取出的四種表意構(gòu)件、存貯于相應(yīng)的四種庫,包括如下步驟:
S1.讀句配骼102,句子由句骼和句艙兩部分組成,識別提取表意構(gòu)件每輪選取A、B兩種語言文字,計(jì)算機(jī)讀取雙語句對庫一個AB雙語句對,以當(dāng)前雙語句對之一查詢句骼庫進(jìn)行配句骼運(yùn)作,有匹配句骼將雙語句對套入,并顯示“艙檢測”、“查配標(biāo)”按鈕,
當(dāng)套入后各句艙勻稱、無殘缺、無堆疊現(xiàn)象且“艙檢測”按鈕被單擊,為肯定,已有匹配句骼,接續(xù)S5艙檢測,
若套入后各句艙不勻稱、有殘缺、或有堆疊現(xiàn)象且“查配標(biāo)”按鈕被單擊,為否定,表示對套入結(jié)果否定需要提取新句骼,進(jìn)入查配標(biāo)運(yùn)作;
S2.查配標(biāo)運(yùn)作,用A語句詞串查詢傳統(tǒng)電子詞典據(jù)B語句是否含有語義對應(yīng)詞串生成當(dāng)前句對語意匹配表,準(zhǔn)備提取新句骼,語意匹配表含有詞性、A語詞、B語詞字段,先以A語句子單詞串為單元切分、依次填入匹配表A語詞字段,隨后逐記錄取出查詢傳統(tǒng)電子詞典,以查得的相應(yīng)B語解釋搜索B語句是否含有,含有且是最長串填入B語詞字段同時將其詞性填入詞性字段,無含有B語詞字段為空,為識別標(biāo)注句艙作準(zhǔn)備,句艙計(jì)數(shù)器清零,N=0;
S3.對詞串的識別,在語意匹配表的基礎(chǔ)上識別如下詞串:
數(shù)量串:凡表示“數(shù)”和“量”的中英詞串收錄于數(shù)量表,表中有英數(shù)、中數(shù)、計(jì)算值、詞性字段;其中詞性含有“計(jì)算串”、“數(shù)位串”、“基數(shù)”、“序數(shù)”、“量”;如果需要計(jì)算,將數(shù)串從左至右以單詞切下,查該表詞性標(biāo)有“計(jì)算串”的以計(jì)算值加入結(jié)果數(shù)A;其中如果是數(shù)位串,將它與結(jié)果數(shù)A相剩,操作完成加入結(jié)果數(shù)B;判斷是否數(shù)量串據(jù)該表已登錄的識別為數(shù)量串;在匹配表數(shù)串之后如果是名詞并且數(shù)量表有登錄識別為量詞,二者合并為數(shù)量串,
專名串:利用英文首字母大寫入手,排外其它大寫情況識別為專名串,
冠名串:利用英文冠詞識別,冠后跟隨名詞,或者插有形容詞的“冠形名”者識別為冠名串,
無冠名串:無冠詞引帶而詞性字段是名詞,且A語詞、B語解釋字段不空識別為語意相等的無冠名串,
其它匹配串:其它詞類,只要它們的A語詞、B語解釋字段不空的識別為語意相等的其它匹配串;
S4.識別及標(biāo)注句艙103,機(jī)器以數(shù)量串、專名串、冠名串雙語同時依次識別、以先后為序用N=N+1將它們預(yù)標(biāo)為句艙,預(yù)標(biāo)句艙使骼例比由100%逐步降低,這三種詞串標(biāo)注句艙結(jié)束后,
如骼例比高于50%,以所述語意匹配表為據(jù)將無冠名串或其它語義匹配串在有間隔的前提下逐個接續(xù)標(biāo)為句艙,接受操作者認(rèn)可、或更正或使用意群對齊運(yùn)作增補(bǔ)語意匹配詞串,繼續(xù)識標(biāo)句艙,
直至上述識別及標(biāo)注句艙條件缺失且骼例比在15-50%之間,識標(biāo)句艙結(jié)束,進(jìn)行句骼格式檢查,整理前述預(yù)標(biāo)為正式標(biāo)注這是第一輪識別提取的步驟,第二輪識別提取開始不用識別詞性而是以已標(biāo)語種句為模板識別、標(biāo)出未標(biāo)語種句的句艙,
當(dāng)N=>1時,當(dāng)前句對移去句艙所剩部分為句骼構(gòu)件,將它們存貯于句骼庫105相應(yīng)語種構(gòu)件字段,當(dāng)N=0當(dāng)前句對為習(xí)語構(gòu)件,習(xí)語構(gòu)件是一些分不出句骼句艙的特殊句對,將它們存貯于習(xí)語庫104相應(yīng)語種習(xí)語字段,
將當(dāng)前雙語句例對號入座地套回當(dāng)前句骼成為骼例式備續(xù);
S5.艙檢測及提取艙模106,逐個句艙檢測,第一輪識別提取以A語拼音文字句的句艙所含詞串計(jì)數(shù),=>5個原有詞串要進(jìn)入組復(fù)詞運(yùn)作,
=>原有8個詞串的以當(dāng)前句艙作“查配標(biāo)”運(yùn)作生成當(dāng)前句艙語意匹配表以備進(jìn)一步提取艙模為有模句艙,
提取艙模,以數(shù)量串、專名串、冠名串雙語同時依次識別、預(yù)標(biāo)為艙眼,模例之比由100%逐步降低,若預(yù)標(biāo)完這三種詞串還大于70%,再以無冠名串或其它語意匹配串在有間隔的前提下在標(biāo)為艙眼,接受操作者認(rèn)可、更正,或使用意群對齊運(yùn)作增補(bǔ)語意匹配詞串,繼續(xù)預(yù)標(biāo)艙眼,
當(dāng)預(yù)標(biāo)條件不存在且模例比在50-70%之間,預(yù)標(biāo)艙眼操作結(jié)束,以英語句艙從左到右為序修改艙眼預(yù)杯為正式標(biāo)注,第二輪提取開始不同,是以已標(biāo)語種句艙為模板識別、標(biāo)出未標(biāo)語種艙眼,
當(dāng)艙眼數(shù)N=>1;當(dāng)前句艙對移去艙眼所剩部分為艙模構(gòu)件,保存到艙模庫107相應(yīng)語種艙模字段,
繼續(xù)其它句艙的檢測直到全句對句艙檢測完畢;
S6.收存意群串108,將當(dāng)前雙語例對號入座地套回當(dāng)前提取的句骼,有艙模的句艙再套回相應(yīng)艙模,再逐個句艙或艙眼搜索,參照語意匹配表,相應(yīng)內(nèi)容在匹配表里A語字段和B語字段不空的記錄是A、B語言文字語意對齊的,確定為意群串構(gòu)件,將它們逐記錄取出,分別存貯到意群串庫109同記錄相應(yīng)語種字段內(nèi),當(dāng)前句對的識別提取結(jié)束。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于劉樹根,未經(jīng)劉樹根許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310042053.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





