[發明專利]多維度待譯文檔的預處理方法有效
| 申請號: | 201310752261.4 | 申請日: | 2013-12-30 |
| 公開(公告)號: | CN103729350B | 公開(公告)日: | 2017-01-04 |
| 發明(設計)人: | 江潮;張芃 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多維 譯文 預處理 方法 | ||
技術領域
本發明涉及翻譯技術領域,具體地說,涉及一種多維度待譯文檔的預處理方法。
背景技術
在全球化、國際化的今天,世界政治、經濟、文化的交流越來越頻繁,各國人員的往來也越來越密集,使得對翻譯的需求也越來越大;同時隨著互聯網的興起,各語種的信息量爆發性增長,各語種信息之間的轉換需求也呈快速增長的態勢。
面對海量的多語信息轉換和翻譯任務,目前自翻譯和小規模工作間式的翻譯模式已完全無法適應。翻譯作為一個產業,其規模越來越大,其作用也越來越重要,現有翻譯方式僅將待譯文檔按照學科等粗略分類就分配個譯員翻譯,使的有些譯員并不適合翻譯該待譯文檔,從而使得翻譯速度較慢。
發明內容
本發明所要解決的技術問題是現有的翻譯模式對待譯文檔的預處理不合理,使得后續的翻譯速度較慢。
本發明的技術方案如下:
一種多維度待譯文檔的預處理方法,包括:統計所述待譯文檔包括的行業類別屬性的數量和所述待譯文檔的類符形符比;分別判斷所述待譯文檔包括的行業類別屬性的數量相對于行業類別屬性設定閾值的大小、所述待譯文檔的類符形符比相對于類符形符比設定閾值的大小,根據所述待譯文檔的類符形符比相對于類符形符比設定閾值的大小匹配所述待譯文檔的翻譯難度系數;根據這兩種判斷結果選擇將所述待譯文檔按所述行業類別屬性或者所述待譯文檔的翻譯難度系數拆分。
進一步:如果所述待譯文檔的行業類別屬性不小于行業類別屬性設定閾值,則將所述待譯文檔按照所述行業類別拆分;如果所述待譯文檔的行業類別屬性小于行業類別屬性設定閾值,且所述待譯文檔的類符形符比不小于類符形符比設定閾值,則將所述待譯文檔按照所述待譯文檔的翻譯難度系數拆分;如果所述待譯文檔的行業類別屬性小于行業類別屬性設定閾值,且所述待譯文檔的類符形符比小于類符形符比設定閾值,則將所述待譯文檔按照所述行業類別拆分。
進一步,統計所述待譯文檔包括的行業類別屬性的數量的過程包括:去除所述待譯文檔中的停用詞和沒有具體意義的詞語,得到所述待譯文檔的特征詞;將所述待譯文檔的各個所述特征詞逐個在術語語料庫中匹配,記錄每個所述特征詞或者由多個所述特征詞構成的特征詞串匹配的術語的行業類別屬性;統計匹配到的行業類別屬性的數量。
進一步,統計所述待譯文檔的類符形符比的過程包括:根據所述待譯文檔的所有詞匯,統計其中的類符數和形符數,通過所述類符數與所述形符數之比得到所述待譯文檔的類符形符比;或者,將所述待譯文檔的所有詞匯按照文檔標準數量劃分為多個子文檔得到所述待譯文檔的類符形符比
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310752261.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種應用于車床刀架的切刀結構及車床
- 下一篇:一種稍板平面卡具





