[發明專利]文檔輔助翻譯方法及裝置在審
| 申請號: | 202110075040.2 | 申請日: | 2021-01-20 |
| 公開(公告)號: | CN112766003A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 樊兵兵 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 張睿 |
| 地址: | 430206 湖北省武漢市東湖新技術開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 輔助 翻譯 方法 裝置 | ||
本發明提供一種文檔輔助翻譯方法及裝置,該方法包括:將待翻譯文檔拆分成多個句子,根據語種識別出不翻譯的句子,分析文檔中和文檔之間的重復句子,將每個句子與語料庫中的語料和術語進行匹配,將待翻譯句子、匹配的術語和語料寫入excel,標識出無需翻譯的句子,并把重復句子行進行標識鎖定;從語料庫中獲取每個句子匹配到的語料的譯文,以供譯員對每個句子進行翻譯;根據譯員對每個句子進行翻譯的譯文,獲取所述待翻譯文檔的譯文,進行術語語料檢查及漏譯檢查,最終按照段段對照、句句對照、純譯文模式進行文檔還原完成翻譯。本發明提高了待翻譯文檔翻譯的質量和效率,降低翻譯成本。
技術領域
本發明涉及翻譯輔助處理技術領域,尤其涉及一種文檔輔助翻譯方法及裝置。
背景技術
隨著科學技術的發展,語言處理領域的研究很多。其中,在智能翻譯方面,用戶只要輸入文本,就可以通過智能翻譯工具將其翻譯成所需的語言。但語言組織的組織結構比較復雜且有的詞語可能有多個意思,因此翻譯工具翻譯的結果一般不太理想。
在對翻譯的精度要求較高的場景中,需要譯員進行翻譯。譯員在對文檔進行翻譯時,依次對文檔的每個句子進行翻譯。由于譯員的知識儲備有限,需要安裝其他翻譯輔助工具。例如,通過翻譯輔助工具查找文檔中術語的翻譯。從而導致翻譯需要耗費大量時間和成本。
發明內容
本發明提供一種文檔輔助翻譯方法及裝置,用以解決現有技術中譯員手動翻譯耗時長,成本高的缺陷,實現提高譯員翻譯效率,降低翻譯成本。
本發明提供一種文檔輔助翻譯方法,包括:
將待翻譯文檔拆分成多個句子,根據語種識別出不翻譯的句子,分析所述待翻譯文檔中和所述待翻譯文檔之間的重復句子,將每個句子與語料庫中的語料和術語進行匹配,獲取每個句子匹配到的術語和語料,將所述句子及匹配的術語和語料寫入待譯excel表格,標識出所述不翻譯的句子,并把所述重復句子所在的行進行標識鎖定;
從所述語料庫中獲取每個句子匹配到的語料的譯文,并將所述譯文寫入所述待譯excel表格中,以供譯員根據所述待譯excel表格對每個句子進行翻譯;
根據譯員在所述待譯excel中寫入的每個句子的譯文,生成已譯excel表格,對所述已譯excel表格進行術語檢查及漏譯檢查,若檢查通過,則將所有句子的譯文還原為所述待翻譯文檔的譯文。
根據本發明提供的一種文檔輔助翻譯方法,所述將待翻譯文檔拆分成多個句子包括:
基于Aspose.words類庫中的DOM將待翻譯文檔轉換成Document對象;
提取所述Document對象中的所有段落和表格;
對每個段落進行語種識別,根據每個段落的語種的斷句符號將每個段落拆分成句子;
將所述表格中每行的文本內容作為單個句子。
根據本發明提供的一種文檔輔助翻譯方法,將每個句子與語料庫中的語料進行匹配,獲取每個句子匹配到的語料包括:
統計每個句子的信息和每個語料的信息;
基于AhoCorasickDoubleArrayTrie將每個句子的信息與各語料的信息進行匹配,獲取每個句子的信息與各語料的信息之間的匹配率;
將匹配率大于預設閾值的語料作為每個句子匹配到的語料。
根據本發明提供的一種文檔輔助翻譯方法,所述將所述句子及匹配的術語和語料寫入待譯excel表格,包括:
以每個句子的原文、譯文、匹配到的術語和語料為列生成待譯excel表格;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110075040.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電潤濕微夾持器及小微物體的夾持方法
- 下一篇:一種鍋爐給水泵的排氣裝置





