[發明專利]翻譯任務碎片化的方法在審
| 申請號: | 201310749696.3 | 申請日: | 2013-12-30 |
| 公開(公告)號: | CN103678280A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 江潮 | 申請(專利權)人: | 武漢傳神信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06Q10/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 任務 碎片 方法 | ||
技術領域
本發明屬于自然語言處理技術領域,尤其涉及一種翻譯任務碎片化方法。
背景技術
在這個全球化、國際化的今天,世界政治、經濟、文化的交流越來越頻繁,各國人員的往來也越來越密集,使得對翻譯的需求也越來越大;同時隨著互聯網的興起,各語種的信息量爆發性的增長,各語種信息之間的轉換需求也呈快速爆發性增長的態勢。
目前最常用的碎片化方法,是按固定字數或按自然段落進行碎片化,這種方法快速易行,不需花費很多的計算資源,即可完成,在一些對語種和分類要求不是很強烈的應用場景不失為一種很好的碎片化方法;按語種進行碎片化的方法,該方法應用于對翻譯方向要求很明確的場合,對于給定的翻譯文檔,判斷出其中每一種文字,最大化的截取并組合之;按任務標題進行碎片化的方法,是通過對任務標題進行分詞,并判斷其所屬的類別,從而對任務所屬類別進行判斷,這是一種簡單的按類別進行碎片化的方法。面對海量的多語信息轉換和翻譯任務,目前自翻譯的模式或小規模工作間式的翻譯模式已完全無法適應,采用普通的任務平均分配和流水作業的方法,不能將最合適的任務分配給合適的譯員,效率很低而且無法利用信息化平臺進行自動化的高效處理。
發明內容
有鑒于此,本發明的目的是提出一種翻譯任務碎片化的方法,以解決如何將合適的任務分給合適的譯員,能夠在大規模并行分布處理的云翻譯平臺上,對所輸入的多語信息標準化和可度量化的要求。
本發明公開了一種翻譯任務碎片化的方法,具體包括:對輸入的文檔進行預處理;提取給定翻譯文檔的特征項以及計算各個特征項的屬性;與術語庫中的術語進行匹配,判定其中一個段落或多個段落所屬行業類別及學科領域;按行業類別和學科領域進行碎片化。
在一些可選的實施例中,所述預處理包括對所輸入的文本信息進行文本格式轉換、統一編碼,得到同一格式的規范的輸入文本。
在一些可選的實施例中,所述預處理還包括:對所述規范的輸入文本進行分詞處理;將分詞后的每個詞條與預先設置的詞表中多個詞條進行比較,如果一致,則刪除;所述詞表中包括停用詞和沒有具體意義不代表具體概念的詞語;得到輸入文檔的詞語列表。
在一些可選的實施例中,所述提取給定翻譯文檔的特征項包括:將所述得到的詞語列表作為進一步處理的特征項,得到特征項的各個屬性,所述屬性至少包括以下之一:權重、詞頻、段落屬性以及該特征項在輸入文檔中的位置。
在一些可選的實施例中,所述計算各個特征項的屬性包括:計算所提取的特征項的權重;計算每個在輸入文檔中的出現次數即詞頻;記錄每個特征項所屬的段落號,即段落屬性;記錄每個特征項在輸入文檔中的位置。
在一些可選的實施例中,所述的匹配是將所述特征項作為匹配項在術語庫中進行字符模式匹配,若匹配到相應術語的首詞語,則將所述特征項在輸入文檔中的相鄰下一詞語作為匹配項,與所述術語的下一詞語繼續匹配,如此繼續,直到術語中的某個詞語匹配不成功或匹配完成。
在一些可選的實施例中,當所述匹配完成,得到輸入文檔的術語列表,所述術語列表至少包括以下之一:術語、術語權重、術語詞頻、術語的段落屬性以及術語對應的行業和學科領域信息。
在一些可選的實施例中,根據所述輸入文檔的術語列表,計算每個不小于固定字數的段落不同行業、學科領域的術語數量,小于固定字數的段落則合并到下一段落計算;根據術語的段落屬性計算每個段落有多少個術語,再根據所述術語對應的行業和學科領域信息計算段落中每個術語所屬的行業和學科領域。
在一些可選的實施例中,將段落標記為其所含行業和學科領域最多術語的ID,合并具有相同行業和學科領域ID的段落,得到劃分好的碎片。
本發明將翻譯任務按一定的規則進行拆分、分類、組合,然后將對組合后的碎片化任務在云翻譯平臺上定位并精準推送,使得最合適的譯員能夠匹配到最合適的任務,能夠最有效的促進分工,極大的提高單位翻譯產能。
為了上述以及相關的目的,一個或多個實施例包括后面將詳細說明并在權利要求中特別指出的特征。下面的說明以及附圖詳細說明某些示例性方面,并且其指示的僅僅是各個實施例的原則可以利用的各種方式中的一些方式。其它的益處和新穎性特征將隨著下面的詳細說明結合附圖考慮而變得明顯,所公開的實施例是要包括所有這些方面以及它們的等同。
說明書附圖
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢傳神信息技術有限公司,未經武漢傳神信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310749696.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種變速器分動箱潤滑系統
- 下一篇:一種基于VPX的多總線試驗平臺的設計方法





