[發明專利]動態生成多語言行業標準格式的海量語言資產的方法有效
| 申請號: | 201210383201.5 | 申請日: | 2012-10-11 |
| 公開(公告)號: | CN103729346A | 公開(公告)日: | 2014-04-16 |
| 發明(設計)人: | 杜金林;朱懿;杜勇 | 申請(專利權)人: | 上海勇金懿信息科技有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200439 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動態 生成 語言 行業標準 格式 海量 資產 方法 | ||
技術領域
本發明涉及一種動態生成多語言行業標準格式的海量語言資產的方法,用于CAT軟件或者多語言翻譯系統中的TM模塊的開發和應用,屬多語言機器翻譯技術領域。?
背景技術
TM(Translation?Memory翻譯記憶)是計算機輔助翻譯(CAT)領域廣泛采用的技術之一,借助TM技術可以顯著提高翻譯效率,保證內容一致性。由于采用TM技術開發的CAT軟件種類繁多,TM內容的存儲格式千差萬別,為了便于翻譯機構以及CAT工具之間的TM數據交換,一種稱為TMX(Translation?Memory?eXchange)的開放標準已經成功應用到本地化和翻譯行業。?
在軟件和網站本地化翻譯的過程中,需要處理的數據文件內容重復性比較大,另外由于內容更新頻繁,且都是基于上一版本的更新,只是增加了少量新內容或者對原來的內容進行了少量修正,所以很有必要充分利用以前版本已經翻譯的內容,而不需要重新翻譯。?
TM技術有效地重復利用這些已經翻譯的內容,它采用片斷(Segment)和TM庫的方式提高翻譯的效率,翻譯數據庫以“翻譯單元(Translation?Unit)”為數據單位,將源語言的各個句子與目標語言的句子建立對應鏈接關系。翻譯人員采用TM的CAT工具翻譯內容時,CAT工具不斷將最新翻譯的內容存儲到TM庫,對于要翻譯的內容(如單詞、短語、句子、段落),它先在TM庫中搜索該內容是否有匹配的內容,并且自動提供最接近的譯法,翻譯人員可方便地插入最匹配的譯文。?
隨著翻譯內容的不斷豐富,TM庫的容量不斷增加,翻譯人員不必為相同內容的再次重新翻譯而苦惱,只需要專注于需要翻譯的新內容即可,而且TM的準確性也能保證相同內容翻譯的一致性。這是采用TM技術追求的目標。?
然而,隨著經濟全球化的不斷深入,軟件/網站的本地化和全球化行業迅速發展,與此相呼應,各個采用T?M技術開發的本地化工具和TM工具越來越多,但是這些工具是不同的廠家開發的,每家都有各自的文件數據存儲格式。另外,對于一個本地化服務機構來說,經常為不同客戶或相同客戶的不同項目提供本地化翻譯服務,由于不同客戶和不同項目需要使用不同的本地化工具,經常由于各個本地化工具文件數據缺乏可以交換的標準格式,因此,很難重復使用以前積累的TM庫資源。顯然,TM庫的標準格式亟待統一。?
綜上所述,隨著經濟全球化的不斷深入,軟件/網站的本地化和全球化行業迅速發展,除了對現有存儲的TMX及TBX格式的語言資產(TM與術語資源)進行重用有助于提升產出與質量,降低成本。通常TMX或者TBX都是以一個語言對形式出現,如英文到中文,英文到德文等。然而,業界的技術還是停留在單一語言對格式進行支持的情況,還沒有從現有的單一語?言對里的相同內容自動生成多語言語言對的技術。?
現有技術的缺點:1)現有的語言資產存儲架構是二維的、單向的,源語種與各個目標語種間的對應關系無法打通;2)無法從海量單一語言TMX或TBX文件中相同內容自動獲取多語言(多維度)、多向的語言對,造成資源的極大浪費,如需獲取,勢必造成巨大人工成本。?
發明內容
為解決上述問題,本發明旨在提供一種動態生成多語言行業標準格式的海量語言資產的方法。本發明的技術方案如下:?
一種動態生成多語言行業標準格式的海量語言資產的方法,包括以下步驟:?
1、通過開發解析器將TMX、TBX等基于XML的標準格式的語料庫、術語庫中的內容讀取出并導入到指定的數據庫中;?
2、在導入的同時,將自動匹配和放置相同內容不同語言對的數據庫表,自動生成一句源文,多句匹配的目標語言的多語言數據庫;?
3、在用戶使用時,根據用戶指定的語言對,自動將搜索到的結果以翻譯記憶的形式反饋給用戶,以特定的格式呈現給最終用戶進行重用;?
4、當增加、更新多語言數據庫時,將自動更新多語言的相關內容,保證語言資產在動態更新之后,可以繼續讓用戶獲取更新后的翻譯記憶內容。?
以上所述的動態生成多語言行業標準格式的海量語言資產的方法,作為優選方案:還包括:?
采用λ語料解析模塊,提供行業標準格式TMX和TBX的解析,將語料信息(包括源語言、目標語言等)讀入內存,轉換為二進制對象;?
采用λ語料適配模塊,提供對中間語言語料的匹配功能,并將相應目標語言語料存儲到多語言語料矩陣正確位置;?
采用λ語料生成模塊,提供讀取多語言語料矩陣內語料信息,并將其按照行業標準輸出為TMX或TBX格式文件,方便歸檔備份語料或供其他兼容TMX或TBX的工具使用。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海勇金懿信息科技有限公司,未經上海勇金懿信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210383201.5/2.html,轉載請聲明來源鉆瓜專利網。





