[發(fā)明專利]一種實現(xiàn)高命中率的逐詞比對方法有效
| 申請?zhí)枺?/td> | 201010570516.1 | 申請日: | 2010-12-02 |
| 公開(公告)號: | CN102012897A | 公開(公告)日: | 2011-04-13 |
| 發(fā)明(設(shè)計)人: | 陳淮琰;巨雷;鄭建鋒;唐海波 | 申請(專利權(quán))人: | 無敵科技(西安)有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 西安智邦專利商標(biāo)代理有限公司 61211 | 代理人: | 商宇科 |
| 地址: | 710075 陜西省*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實現(xiàn) 命中率 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種中英逐詞比對方法,通過解決比對中的關(guān)鍵域問題,實現(xiàn)高命中率的逐詞比對。
背景技術(shù)
在日常英文學(xué)習(xí)過程中,經(jīng)常遇到中英比照的情況,如果能提供一種簡單的逐詞比對方法,當(dāng)然是非常愉快的事情。目前的采用中文對英文標(biāo)記后,存在由于中文分詞過粗引起的未命中,如中文中有分詞“我認(rèn)為”,但是其英文關(guān)系中無“I?think”。導(dǎo)致分詞有結(jié)果,但是無法標(biāo)記的情況。在我們常見的中英對照例句中,還經(jīng)常存在系動詞、冠詞或介詞等在對應(yīng)語言例句中無法找到相應(yīng)翻譯的無實際意義的單詞,而逐詞比對時,需要對中英做對應(yīng)標(biāo)記,這類詞由于無實際意義而導(dǎo)致無法加入標(biāo)記序列。在中英逐次比對過程中會出現(xiàn)一個中文對應(yīng)多個英文的情況,通常做法是按照先后順序進(jìn)行標(biāo)記,這樣會導(dǎo)致當(dāng)英文例句為倒裝句是,標(biāo)記位置錯誤的情況。在逐詞比對功能中,需要對中文以及對應(yīng)的英文同時進(jìn)行標(biāo)記,但是由于收集的數(shù)據(jù)大部分來自于辭典數(shù)據(jù),因此很大程度上都是標(biāo)準(zhǔn)的解釋,而實際的中英例句中卻存在各種靈活應(yīng)用,導(dǎo)致經(jīng)常性的根據(jù)標(biāo)準(zhǔn)釋義無法找到對應(yīng)數(shù)據(jù)的情況。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)解決方案是:本發(fā)明為一種實現(xiàn)高命中率的逐詞比對方法,其特殊之處在于:該方法包括以下步驟:
1)多段英文字符串單元組成英文字符串(engdata),多段中文字符串單元組成中文字符串(chndata);
2)對英文字符串分詞,得到長度為分詞長度(phrlen)的英文分詞結(jié)果集engphr(n=0,。。。phrlen-1);
3)判斷英文分詞結(jié)果集中一項engphr(n)是否存在于關(guān)鍵詞字符列表中,否則結(jié)束,是則進(jìn)至步驟4);
4)查找中英字典,得到engphr(n)對應(yīng)中文ID序列(chnidseq)(n=0,。。。len-1);
5)判斷chnidseq(n)是否存在于關(guān)鍵詞字符列表中,否則返回步驟3,重新選一個engphr(n+1)重復(fù)步驟3-5,是則進(jìn)至步驟6;
6)查找chnidseq(n)的變形序列中文關(guān)聯(lián)詞序列(chnrelseq)(n=0,。。。chnrelseq?len-1);
7)判斷chnrelseq(n)是否存在于關(guān)鍵詞字符列表中,否則返回步驟5),是則進(jìn)至步驟8);
8)chnrelseq(n)在chndata中進(jìn)行字符串匹配,如不匹配,則返回步驟7,重新選一個chnrelseq(n+1),再重復(fù)步驟7-8,如果匹配則進(jìn)行步驟9);
9)對英中添加已經(jīng)命中標(biāo)識標(biāo)記,從chndata中刪除chnrelseq(n)。
該方法還包括在對照詞典中對詞條加入詞性,將英文無意義單詞和英文單詞數(shù)據(jù)同時標(biāo)記。
該方法還包括:
10)將英文數(shù)據(jù)和中文數(shù)據(jù)按單詞劃分為多個節(jié)點;
11)選擇中文數(shù)據(jù)中未有對應(yīng)英文的單詞的節(jié)點作為目標(biāo)節(jié)點;
12)以目標(biāo)節(jié)點為中心,向兩向擴(kuò)散,計算放大率;
13)計算英文數(shù)據(jù)各節(jié)點相對與目標(biāo)節(jié)點的位置權(quán)重;
14)計算待確認(rèn)節(jié)點權(quán)重值,根據(jù)待確認(rèn)節(jié)點權(quán)重值從英文數(shù)據(jù)中選擇目標(biāo)節(jié)點的對應(yīng)節(jié)點。
上述步驟12)的具體步驟如下:
121)首先得到目標(biāo)節(jié)點與中文數(shù)據(jù)中各個存在對應(yīng)節(jié)點之間的關(guān)系,選取差值最大值作為最大基數(shù),得到的Nmax;
122)計算中文數(shù)據(jù)中各個節(jié)點的放大率,放大率的計算公式為:
上述步驟13)中計算英文數(shù)據(jù)各節(jié)點相對與目標(biāo)節(jié)點的位置權(quán)重的公式如下:DesStep(x)=DesLen-|Des(x)-Des(x’)|。DesThr(X)=∑(BaseThr(n)*DesThr(n))
上述步驟14)中計算待確認(rèn)節(jié)點權(quán)重值的公式如下:DesThr(X)=∑(BaseThr(n)*DesThr(n))。
該方法還包括步驟
15)讀取一條中文數(shù)據(jù),分析其每條英文解釋和詞性;
16)如果該解釋的詞性為形容詞且該中文為以“的”結(jié)束;
17)去掉“的”后若詞長大于1;
18)在關(guān)鍵詞列表中查找該詞;
19)如果存在,則該詞作為新詞添加;
20)增加該詞及對應(yīng)英文解釋。
本發(fā)明具有以下優(yōu)點:
1、本發(fā)明將傳統(tǒng)的從英文向中文的比對路徑該為中文向英文的比對路徑,可以消除中文分詞粒度過大導(dǎo)致的遺漏單元,將對逐詞比對的命中率從56。78%提供到64。19%。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于無敵科技(西安)有限公司,未經(jīng)無敵科技(西安)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010570516.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 互動業(yè)務(wù)終端、實現(xiàn)系統(tǒng)及實現(xiàn)方法
- 街景地圖的實現(xiàn)方法和實現(xiàn)系統(tǒng)
- 游戲?qū)崿F(xiàn)系統(tǒng)和游戲?qū)崿F(xiàn)方法
- 圖像實現(xiàn)裝置及其圖像實現(xiàn)方法
- 增強(qiáng)現(xiàn)實的實現(xiàn)方法以及實現(xiàn)裝置
- 軟件架構(gòu)的實現(xiàn)方法和實現(xiàn)平臺
- 數(shù)值預(yù)報的實現(xiàn)方法及實現(xiàn)系統(tǒng)
- 空調(diào)及其冬眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 空調(diào)及其睡眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 輸入設(shè)備實現(xiàn)方法及其實現(xiàn)裝置
- 計算機(jī)可實現(xiàn)的動態(tài)預(yù)測客戶需求的方法、裝置、系統(tǒng)
- 數(shù)據(jù)預(yù)取調(diào)節(jié)
- 緩存命中率分析的方法及設(shè)備
- 一種面向多租戶的緩沖區(qū)管理方法及服務(wù)器
- 一種緩存命中率確定方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 一種廣告命中率預(yù)估方法、預(yù)估裝置及服務(wù)器
- 一種基于動態(tài)預(yù)過濾隊列的信息中心網(wǎng)絡(luò)緩存替換方法
- 排名統(tǒng)計監(jiān)測方法、裝置
- CDN緩存命中率統(tǒng)計方法、系統(tǒng)、網(wǎng)絡(luò)設(shè)備及存儲介質(zhì)
- 一種RISC處理器的程序執(zhí)行方法及相關(guān)裝置





