[發(fā)明專利]一種語句翻譯復(fù)雜度的分析方法有效
| 申請?zhí)枺?/td> | 201310712248.6 | 申請日: | 2013-12-23 |
| 公開(公告)號: | CN103729348A | 公開(公告)日: | 2014-04-16 |
| 發(fā)明(設(shè)計(jì))人: | 江潮 | 申請(專利權(quán))人: | 武漢傳神信息技術(shù)有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06Q10/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發(fā)區(qū)光谷軟件*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語句 翻譯 復(fù)雜度 分析 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及翻譯技術(shù)領(lǐng)域,具體而言,涉及一種語句翻譯復(fù)雜度的分析方法。
背景技術(shù)
譯前處理是翻譯過程中非常重要的一個(gè)環(huán)節(jié),對于一個(gè)翻譯任務(wù),如何為其確定翻譯資源,如何為其安排翻譯生產(chǎn)是譯前處理的主要工作,這些工作的一個(gè)基礎(chǔ)就是確定翻譯量。翻譯任務(wù)的翻譯量由翻譯文檔的大小和難度所決定,翻譯文檔的大小可以通過字?jǐn)?shù)統(tǒng)計(jì)得到,相對簡單準(zhǔn)確,而翻譯文檔的難度的判定則復(fù)雜得多,其中判斷文檔翻譯難度最重要的一個(gè)因素是判斷文檔中語句的翻譯難度。
對于語句翻譯難度的判別可以分為人工判別和機(jī)器判別。人工判別是通過語言專家或翻譯專家對待語句進(jìn)行標(biāo)注和判別,由于人的閱讀和理解限制,這種方法速度較慢同時(shí)要耗費(fèi)非常大的的人力成本,并且由于判別人能力的參差以及每人對語句語義難度的理解不同而產(chǎn)生很大的判別差別,判別結(jié)果無法做到統(tǒng)一標(biāo)準(zhǔn),客觀性很差。機(jī)器判別是通過計(jì)算機(jī)結(jié)合一定的方法對語句進(jìn)行翻譯難度判斷,目前最常用的方法是通過對語句中生僻字詞的統(tǒng)計(jì)來進(jìn)行難度判斷,這種單一維度的判斷方法其用來作為判別因素的可靠性比較單薄,有較大的片面性,得到的判別結(jié)果往往與實(shí)際情況差別很大,無法保證判別結(jié)果的準(zhǔn)確性。目前對語句翻譯難度的判別,還缺乏一個(gè)既高效又相對準(zhǔn)確的判別方法。
發(fā)明內(nèi)容
本發(fā)明旨在提供一種語句翻譯復(fù)雜度的分析方法,解決了如何對語句的翻譯復(fù)雜度進(jìn)行既高效又相對準(zhǔn)確的判別的問題。
本發(fā)明公開了一種語句翻譯復(fù)雜度的分析方法,包括:
掃描待譯語句,對所述待譯語句進(jìn)行分詞處理,得到所述待譯語句中的所有詞匯,并統(tǒng)計(jì)出詞匯總數(shù);
根據(jù)得到的所述待譯語句中的所有詞匯,并統(tǒng)計(jì)出詞匯總數(shù),確定所述待譯語句中的的句長、所述待譯語句中的子句的數(shù)量、子句的平均長度、所述待譯語句中的詞匯等級、所述待譯語句中的實(shí)義詞密度和所述待譯語句中的習(xí)語數(shù);
根據(jù)所述待譯語句的句長、子句的平均長度、詞匯等級、實(shí)義詞密度和習(xí)語數(shù)建立計(jì)算翻譯復(fù)雜度的多元線性回歸模型,通過樣本數(shù)據(jù)得到回歸系數(shù),從而得到所述語句的翻譯復(fù)雜度。
優(yōu)選地,所述待譯語句中的句長為所述待譯語句所述詞匯總數(shù)。
優(yōu)選地,確定所述待譯語句中的子句的平均長度的過程包括:
將所述待譯語句中的所述詞匯總數(shù)除以所述子句數(shù)量,結(jié)果作為所述子句的平均長度。
優(yōu)選地,確定所述待譯語句的詞匯等級的過程包括:
將得到的每個(gè)所述詞匯在詞匯分級表中進(jìn)行匹配,得到每個(gè)所述詞匯的詞匯級別;所述詞匯級別為一級、二級、三級或四級;
分別統(tǒng)計(jì)所述詞匯級別為二級或二級以上的級別的所述詞匯的數(shù)量;
按照詞匯等級計(jì)算公式計(jì)算出所述語句的詞匯等級,所述詞匯等級計(jì)算公式如下:
其中,wordx為詞匯級別為X級的詞匯的數(shù)量,K111、K112和K113為詞匯等級調(diào)節(jié)系數(shù),word為總詞匯數(shù)。
優(yōu)選地,所述詞匯等級調(diào)節(jié)系數(shù)為所述多元線性回歸模型的回歸系數(shù),采用最小二乘法對樣本數(shù)據(jù)進(jìn)行計(jì)算得到。
優(yōu)選地,確定所述待譯語句的實(shí)義詞密度的過程包括:
將得到的所有所述實(shí)義詞按照一定順序進(jìn)行排列;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢傳神信息技術(shù)有限公司,未經(jīng)武漢傳神信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310712248.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于聊天大數(shù)據(jù)知識庫的機(jī)器人對話控制方法和系統(tǒng)
- 基于大數(shù)據(jù)搜索的幽默型機(jī)器人對話控制方法和系統(tǒng)
- 基于對話知識庫的機(jī)器人對話控制方法和系統(tǒng)
- 一種自然語言語句評價(jià)方法及裝置
- 句子級雙語對齊方法及系統(tǒng)
- 一種獲取相似語句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種翻譯模型結(jié)果重排序的方法及裝置
- 用于輸出信息的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)
- 搜索推薦方法和裝置、服務(wù)器、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本識別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 生成可縮放矢量圖形場景的至少一部分的復(fù)雜度矢量的方法和設(shè)備以及用于測試可縮放矢量圖形場景的至少一部分在設(shè)備上的播放適宜性的方法和測試設(shè)備
- 基于時(shí)間復(fù)雜度和空間復(fù)雜度來確定編碼模式的方法及裝置
- 一種視頻編碼復(fù)雜度自適應(yīng)調(diào)整方法及裝置
- 低復(fù)雜度模式選擇
- 高復(fù)雜度活塞
- 交通復(fù)雜度估算
- 一種圖像組成復(fù)雜度計(jì)算方法
- 內(nèi)容復(fù)雜度檢測系統(tǒng)
- 內(nèi)容復(fù)雜度檢測方法
- 復(fù)雜度和碼率的確定方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





