[發(fā)明專利]一種譯員文檔精確匹配的方法有效
| 申請?zhí)枺?/td> | 201310712040.4 | 申請日: | 2013-12-23 |
| 公開(公告)號: | CN103729421B | 公開(公告)日: | 2018-03-16 |
| 發(fā)明(設(shè)計(jì))人: | 江潮;張芃 | 申請(專利權(quán))人: | 語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康盛知識產(chǎn)權(quán)代理有限公司11331 | 代理人: | 張良 |
| 地址: | 430070 湖北省武漢市東湖開發(fā)區(qū)光谷軟件*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 譯員 文檔 精確 匹配 方法 | ||
1.一種譯員文檔精確匹配的方法,其特征在于,包括:
掃描待譯文檔,確定所述待譯文檔中的所有詞匯和所有語句;
根據(jù)確定的所述詞匯和語句分別進(jìn)行復(fù)雜度計(jì)算,得到文檔的詞匯復(fù)雜度和語句復(fù)雜度;
根據(jù)所述文檔的所述詞匯復(fù)雜度和所述語句復(fù)雜度計(jì)算得到所述文檔的翻譯難度數(shù)值;
根據(jù)所述待譯文檔的所述翻譯難度數(shù)值在數(shù)據(jù)庫中與譯員具有的翻譯能力等級進(jìn)行匹配,匹配出與所述待譯文檔的翻譯難度數(shù)值對應(yīng)的譯員;
其中,根據(jù)所述文檔的所述詞匯復(fù)雜度和所述語句復(fù)雜度計(jì)算得到所述文檔的所述翻譯難度數(shù)值包括:
按照翻譯難度計(jì)算公式計(jì)算所述翻譯難度數(shù)值,所述翻譯難度計(jì)算公式如下:
diff_doc=K1·diff_word+K2·diff_sentence
其中,diff_word為所述文檔詞匯復(fù)雜度,diff_sentence為所述文檔語句復(fù)雜度,K1、K2為多元線性回歸系數(shù);
其中,所述文檔詞匯復(fù)雜度的計(jì)算過程包括:
計(jì)算出文檔的詞匯等級、類符形符比和實(shí)義詞詞義密度;按照詞匯復(fù)雜度計(jì)算公式計(jì)算,得到所述文檔的所述詞匯復(fù)雜度,所述詞匯復(fù)雜度計(jì)算公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional;
其中,diff_word為所述文檔詞匯復(fù)雜度,grade_word為所述文檔的詞匯等級,STTR為所述文檔的類符形符比,density_notional為所述文檔的實(shí)義詞詞義密度,K11、K12和K13為通過樣本計(jì)算得到詞匯復(fù)雜度調(diào)節(jié)系數(shù);
其中,所述文檔的詞匯等級的計(jì)算過程包括:
對所述文檔進(jìn)行分詞處理,得到所有詞匯,并統(tǒng)計(jì)得到總詞匯數(shù);
將得到的每個(gè)所述詞匯在詞匯分級表中進(jìn)行匹配,得到每個(gè)所述詞匯的詞匯級別;所述詞匯級別為一級、二級、三級或四級;
分別統(tǒng)計(jì)所述詞匯級別為二級或二級以上的級別的所述詞匯的數(shù)量;
按照詞匯等級計(jì)算公式計(jì)算出所述文檔的詞匯等級,所述詞匯等級計(jì)算公式如下:
其中,wordx為詞匯級別為X級的詞匯的數(shù)量,word為總詞匯數(shù),K111、K112和K113為給定樣本所計(jì)算出的詞匯等級調(diào)節(jié)系數(shù),屬于第三級調(diào)節(jié)系數(shù),該調(diào)節(jié)系數(shù)為多元線性回歸系數(shù)可以通過最小二乘法計(jì)算得到;具體計(jì)算方法如下:
令:Y=grade_word,
對于采集到的n組樣本數(shù)據(jù):
{X11,X12,X13};
{X21,X22,X23};
{Xn1,Xn2,Xn3};
對應(yīng)給出專家評定出的詞匯等級:
由此可以獲得以下線性方程組:
Y1=K111·X11+K112·X12+K113·X13;
Y2=K111·X21+K112·X22+K113·X23;
Yn=K111·Xn1+K112·Xn2+K113·Xn3;
得到:
其中,X'為X的轉(zhuǎn)置矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司,未經(jīng)語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310712040.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





