[發(fā)明專利]一種譯員文檔精確匹配的方法有效
| 申請?zhí)枺?/td> | 201310712040.4 | 申請日: | 2013-12-23 |
| 公開(公告)號: | CN103729421B | 公開(公告)日: | 2018-03-16 |
| 發(fā)明(設(shè)計)人: | 江潮;張芃 | 申請(專利權(quán))人: | 語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康盛知識產(chǎn)權(quán)代理有限公司11331 | 代理人: | 張良 |
| 地址: | 430070 湖北省武漢市東湖開發(fā)區(qū)光谷軟件*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 譯員 文檔 精確 匹配 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及翻譯技術(shù)領(lǐng)域,具體而言,涉及一種譯員文檔精確匹配的方法。
背景技術(shù)
在翻譯流程中,為待譯文檔選擇合適的譯員是其中最重要的一個環(huán)節(jié)。為保證譯文的翻譯質(zhì)量,首先要求譯員的翻譯能力足以勝任的待譯文檔的翻譯難度,其次從性價比的角度考慮,也要求譯員的翻譯能力不要過于超出待譯文檔的翻譯難度,以使得翻譯質(zhì)量和翻譯代價之比最優(yōu)。譯員的翻譯能力是一個動態(tài)的能力值,對于翻譯企業(yè)來說,譯員的翻譯能力值是通過譯員在不斷的翻譯生產(chǎn)過程中所得到的一個加權(quán)評分值,相對來說是個固定的可獲取的能力值,但待譯文檔的翻譯難度的判定則需要根據(jù)每篇文檔的具體情況而定。對于文檔翻譯難度的判別可以分為人工判別和機(jī)器判別。人工判別是通過語言專家或翻譯專家對待翻譯文檔進(jìn)行標(biāo)注和判斷,由于人的閱讀和理解限制,這種方法速度較慢同時要耗費(fèi)非常大的的人力成本,并且由于判別人能力的參差以及每人對文檔難度的理解不同而產(chǎn)生很大的判別差別,判別結(jié)果無法做到統(tǒng)一標(biāo)準(zhǔn),客觀性很差。機(jī)器判別是通過計算機(jī)結(jié)合一定的方法對文檔進(jìn)行翻譯難度判斷,目前最常用的方法是通過對文檔中生僻字詞的統(tǒng)計來進(jìn)行難度判斷,這種單一維度的判斷方法其用來作為判別因素的可靠性比較單薄,有較大的片面性,得到的判別結(jié)果往往與實(shí)際情況差別很大,無法保證判別結(jié)果的準(zhǔn)確性。目前對文檔翻譯難度的判別,還缺乏一個既高效又相對準(zhǔn)確的判別方法,從而保證譯員文檔能夠進(jìn)行快速準(zhǔn)確的匹配。
發(fā)明內(nèi)容
本發(fā)明旨在提供一種譯員文檔精確匹配的方法,解決了如何將文檔分配給合適的譯員的問題。
本發(fā)明公開了一種譯員文檔精確匹配的方法,包括:
掃描待譯文檔,確定所述待譯文檔中的所有詞匯和所有語句;
根據(jù)確定的所述詞匯和語句分別進(jìn)行復(fù)雜度計算,得到文檔的詞匯復(fù)雜度和語句復(fù)雜度;
根據(jù)所述文檔的所述詞匯復(fù)雜度和所述文檔復(fù)雜度計算得到所述文檔的翻譯難度數(shù)值;
根據(jù)所述待譯文檔的所述翻譯難度數(shù)值在數(shù)據(jù)庫中與譯員具有的翻譯能力等級進(jìn)行匹配,匹配出與所述待譯文檔的翻譯難度數(shù)值對應(yīng)的譯員。
優(yōu)選地,計算所述文檔的詞匯復(fù)雜度的過程包括:
計算出文檔的詞匯等級、類符形符比和實(shí)義詞詞義密度;
按照詞匯復(fù)雜度計算公式計算,得到所述文檔的所述詞匯復(fù)雜度,所述詞匯復(fù)雜度計算公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional;
其中,diff_word為所述文檔詞匯復(fù)雜度,grade_word為所述文檔的詞匯等級,STTR為所述文檔的類符形符比,density_notional為所述文檔的實(shí)義詞詞義密度,K11、K12和K13為通過樣本計算得到詞匯復(fù)雜度調(diào)節(jié)系數(shù)。
優(yōu)選地,在計算所述文檔的詞匯等級之前,還包括:
對所述文檔進(jìn)行分詞處理,得到所有詞匯,并統(tǒng)計得到總詞匯數(shù);
將得到的每個所述詞匯在詞匯分級表中進(jìn)行匹配,得到每個所述詞匯的詞匯級別;所述詞匯級別為一級、二級、三級或四級;
分別統(tǒng)計所述詞匯級別為二級或二級以上的級別的所述詞匯的數(shù)量;
計算所述文檔的詞匯等級的過程包括:
按照詞匯等級計算公式計算出所述文檔的詞匯等級,所述詞匯等級計算公式如下:
其中,wordx為詞匯級別為X級的詞匯的數(shù)量,K111、K112和K113為通過樣本計算得到詞匯等級調(diào)節(jié)系數(shù),word為總詞匯數(shù)。
優(yōu)選地,在計算所述文檔的類符形符比的過程包括;
根據(jù)得到的所有所述詞匯,統(tǒng)計其中的類符數(shù)和形符數(shù),計算所述類符數(shù)與所述形符數(shù)之比,得到所述文檔的類符形符比;或
將得到的所有所述詞匯按照標(biāo)準(zhǔn)數(shù)量劃分為多個子文檔,及1個不足標(biāo)準(zhǔn)數(shù)量詞匯的子文檔,按照類符形符比計算公式計算,得到所述文檔的類符形符比;所述類符形符比計算公式如下:
其中,token為所述不足標(biāo)準(zhǔn)數(shù)量詞匯的子文檔的形符數(shù),type為不足標(biāo)準(zhǔn)數(shù)量詞匯的子文檔的類符數(shù),typei為第i個含標(biāo)準(zhǔn)數(shù)量個詞匯的子文檔的類符數(shù),n為所述含標(biāo)準(zhǔn)數(shù)量個詞匯的子文檔數(shù)量,ST為所述標(biāo)準(zhǔn)數(shù)量個詞匯劃分單位。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司,未經(jīng)語聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310712040.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





