[發(fā)明專利]一種實(shí)現(xiàn)高命中率的逐詞比對(duì)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201010570516.1 | 申請(qǐng)日: | 2010-12-02 |
| 公開(公告)號(hào): | CN102012897A | 公開(公告)日: | 2011-04-13 |
| 發(fā)明(設(shè)計(jì))人: | 陳淮琰;巨雷;鄭建鋒;唐海波 | 申請(qǐng)(專利權(quán))人: | 無敵科技(西安)有限公司 |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28 |
| 代理公司: | 西安智邦專利商標(biāo)代理有限公司 61211 | 代理人: | 商宇科 |
| 地址: | 710075 陜西省*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實(shí)現(xiàn) 命中率 方法 | ||
1.一種實(shí)現(xiàn)高命中率的逐詞比對(duì)方法,其特征在于:該方法包括以下步驟:
1)多段英文字符串單元組成英文字符串(engdata),多段中文字符串單元組成中文字符串(chndata);
2)對(duì)英文字符串分詞,得到長度為分詞長度(phrlen)的英文分詞結(jié)果集engphr(n=0,。。。phrlen-1);
3)判斷英文分詞結(jié)果集中一項(xiàng)engphr(n)是否存在于關(guān)鍵詞字符列表中,否則結(jié)束,是則進(jìn)至步驟4);
4)查找中英字典,得到engphr(n)對(duì)應(yīng)中文ID序列(chnidseq)(n=0,。。。len-1);
5)判斷chnidseq(n)是否存在于關(guān)鍵詞字符列表中,否則返回步驟3,重新選一個(gè)engphr(n+1)重復(fù)步驟3-5,是則進(jìn)至步驟6;
6)查找chnidseq(n)的變形序列中文關(guān)聯(lián)詞序列(chnrelseq)(n=0,。。。chnrelseq?len-1);
7)判斷chnrelseq(n)是否存在于關(guān)鍵詞字符列表中,否則返回步驟5),是則進(jìn)至步驟8);
8)chnrelseq(n)在chndata中進(jìn)行字符串匹配,如不匹配,則返回步驟7,重新選一個(gè)chnrelseq(n+1),再重復(fù)步驟7-8,如果匹配則進(jìn)行步驟9);
9)對(duì)英中添加已經(jīng)命中標(biāo)識(shí)標(biāo)記,從chndata中刪除chnrelseq(n)。
2.根據(jù)權(quán)利要求1實(shí)現(xiàn)高命中率的逐詞比對(duì)方法,其特征在于:該方法還包括在對(duì)照詞典中對(duì)詞條加入詞性,將英文無意義單詞和英文單詞數(shù)據(jù)同時(shí)標(biāo)記。
3.根據(jù)權(quán)利要求1實(shí)現(xiàn)高命中率的逐詞比對(duì)方法,其特征在于:該方法還包括:
10)將英文數(shù)據(jù)和中文數(shù)據(jù)按單詞劃分為多個(gè)節(jié)點(diǎn);
11)選擇中文數(shù)據(jù)中未有對(duì)應(yīng)英文的單詞的節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn);
12)以目標(biāo)節(jié)點(diǎn)為中心,向兩向擴(kuò)散,計(jì)算放大率;
13)計(jì)算英文數(shù)據(jù)各節(jié)點(diǎn)相對(duì)與目標(biāo)節(jié)點(diǎn)的位置權(quán)重;
14)計(jì)算待確認(rèn)節(jié)點(diǎn)權(quán)重值,根據(jù)待確認(rèn)節(jié)點(diǎn)權(quán)重值從英文數(shù)據(jù)中選擇目標(biāo)節(jié)點(diǎn)的對(duì)應(yīng)節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求3實(shí)現(xiàn)高命中率的逐詞比對(duì)方法,其特征在于:所述步驟12)的具體步驟如下:
121)首先得到目標(biāo)節(jié)點(diǎn)與中文數(shù)據(jù)中各個(gè)存在對(duì)應(yīng)節(jié)點(diǎn)之間的關(guān)系,選取差值最大值作為最大基數(shù),得到的Nmax;
122)計(jì)算中文數(shù)據(jù)中各個(gè)節(jié)點(diǎn)的放大率,放大率的計(jì)算公式為:
5.根據(jù)權(quán)利要求4實(shí)現(xiàn)高命中率的逐詞比對(duì)方法,其特征在于:所述步驟13)中計(jì)算英文數(shù)據(jù)各節(jié)點(diǎn)相對(duì)與目標(biāo)節(jié)點(diǎn)的位置權(quán)重的公式如下:DesStep(x)=DesLen-|Des(x)-Des(x’)|。DesThr(X)=∑(BaseThr(n)*DesThr(n))
6.根據(jù)權(quán)利要求5實(shí)現(xiàn)高命中率的逐詞比對(duì)方法,其特征在于:所述步驟14)中計(jì)算待確認(rèn)節(jié)點(diǎn)權(quán)重值的公式如下:DesThr(X)=∑(BaseThr(n)*DesThr(n))。
7.根據(jù)權(quán)利要求3實(shí)現(xiàn)高命中率的逐詞比對(duì)方法,其特征在于:該方法還包括步驟
15)讀取一條中文數(shù)據(jù),分析其每條英文解釋和詞性;
16)如果該解釋的詞性為形容詞且該中文為以“的”結(jié)束;
17)去掉“的”后若詞長大于1;
18)在關(guān)鍵詞列表中查找該詞;
19)如果存在,則該詞作為新詞添加;
20)增加該詞及對(duì)應(yīng)英文解釋。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于無敵科技(西安)有限公司,未經(jīng)無敵科技(西安)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010570516.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 互動(dòng)業(yè)務(wù)終端、實(shí)現(xiàn)系統(tǒng)及實(shí)現(xiàn)方法
- 街景地圖的實(shí)現(xiàn)方法和實(shí)現(xiàn)系統(tǒng)
- 游戲?qū)崿F(xiàn)系統(tǒng)和游戲?qū)崿F(xiàn)方法
- 圖像實(shí)現(xiàn)裝置及其圖像實(shí)現(xiàn)方法
- 增強(qiáng)現(xiàn)實(shí)的實(shí)現(xiàn)方法以及實(shí)現(xiàn)裝置
- 軟件架構(gòu)的實(shí)現(xiàn)方法和實(shí)現(xiàn)平臺(tái)
- 數(shù)值預(yù)報(bào)的實(shí)現(xiàn)方法及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其冬眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其睡眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 輸入設(shè)備實(shí)現(xiàn)方法及其實(shí)現(xiàn)裝置
- 計(jì)算機(jī)可實(shí)現(xiàn)的動(dòng)態(tài)預(yù)測(cè)客戶需求的方法、裝置、系統(tǒng)
- 數(shù)據(jù)預(yù)取調(diào)節(jié)
- 緩存命中率分析的方法及設(shè)備
- 一種面向多租戶的緩沖區(qū)管理方法及服務(wù)器
- 一種緩存命中率確定方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種廣告命中率預(yù)估方法、預(yù)估裝置及服務(wù)器
- 一種基于動(dòng)態(tài)預(yù)過濾隊(duì)列的信息中心網(wǎng)絡(luò)緩存替換方法
- 排名統(tǒng)計(jì)監(jiān)測(cè)方法、裝置
- CDN緩存命中率統(tǒng)計(jì)方法、系統(tǒng)、網(wǎng)絡(luò)設(shè)備及存儲(chǔ)介質(zhì)
- 一種RISC處理器的程序執(zhí)行方法及相關(guān)裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





