[發明專利]一種全原文參考的在線翻譯方法在審
| 申請號: | 201711175572.3 | 申請日: | 2017-11-22 |
| 公開(公告)號: | CN108345589A | 公開(公告)日: | 2018-07-31 |
| 發明(設計)人: | 羅偉峰;閆昊;車雙武 | 申請(專利權)人: | 語聯網(武漢)信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/22 |
| 代理公司: | 北京華仲龍騰專利代理事務所(普通合伙) 11548 | 代理人: | 李靜 |
| 地址: | 430000 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 原文 翻譯 譯文 在線翻譯 句子 展示窗口 文檔 參考 文本 語義 傳統翻譯 刷新顯示 文檔轉換 碎片化 撕裂 語句 寫入 指向 轉換 創建 | ||
本發明公開了一種全原文參考的在線翻譯方法,包括以下主要步驟:將原始的待翻譯文檔轉換成為HTML文件;整理所述HTML文件;創建基于web瀏覽器的翻譯界面,將HTML文件中的元素全部顯示在所述原文譯文展示窗口內;接收譯員以句子為單位的翻譯文本輸入及編輯,并將該句子的翻譯文本寫入譯文標識指向的譯文段;刷新顯示原文譯文展示窗口,顯示出被翻譯句子的譯文;將HTML文件轉換成為與原始的待翻譯文檔相同格式的文檔,即得到譯稿。本發明具有全原文參考在線翻譯的特點,避免了傳統翻譯模式下的語句碎片化帶給譯員的語義撕裂感,有利于譯員把握原文含義,大幅提高翻譯質量。
技術領域
本發明涉及文檔解析技術和機器輔助翻譯(CAT)技術領域,尤其涉及到一種在線翻譯方法。
背景技術
目前市面上所有相關“在線輔助翻譯平臺”所使用的技術方案均是將文檔中的純文本格式的內容提取出來,進行斷句并切分,最終將所有句子列舉整合到翻譯表格中。翻譯表格的第1列為原文句子列表,第2列為譯文編輯框。除了純文本格式的文字之外,其它格式的對象,如文本框、公式、圖片等對象都不會出現在翻譯界面中。
這樣做的弊端顯而易見,翻譯人員在平臺上進行翻譯的過程中,喪失了對全文上下文內容的整體觀感。特別是一些工程類稿件或者是產品介紹類的稿件中,必須要對著原文附圖才能理解文章句子的真實意思。另外,由于目前自然語言學處理能力還并非完全成熟,采用軟件程序進行“斷句”操作的時候難免會產生錯誤,而錯誤的斷句導致句子意思連貫性的損失,對譯員的翻譯也會帶來很嚴重的影響。
因此,現有技術采用的僅僅將純文本提取出源文檔并最終形成一種表格模式的翻譯形式,影響翻譯效率以及翻譯質量。
發明內容
本發明所要解決的技術問題是提供一種全原文參考的在線翻譯方法,以克服傳統在線翻譯平臺的弊病。
為解決上述技術問題,本發明提供一種全原文參考的在線翻譯方法,包括以下主要步驟:
將原始的待翻譯文檔轉換成為HTML文件;
整理所述HTML文件;
創建基于web瀏覽器的翻譯界面,將HTML文件中的元素全部顯示在所述翻譯界面內;
逐句接收譯員的翻譯文本輸入、編輯及確認命令,并將當前句子的翻譯文本寫入該句子的譯文標識指向的譯文段;
刷新顯示原文譯文展示窗口,顯示出被翻譯句子的譯文;
將HTML文件轉換成為與原始的待翻譯文檔相同格式的文檔,
進一步的,所述整理所述HTML文件,包括:
對HTML文件中的文本進行斷句,重新生成一個個句子,同時順序標注包括句子在內的各元素的位置;一個重新生成的句子包括原文段和譯文段,分別存放原文文本和譯文文本,原文段、譯文段分別設有原文標識和譯文標識。
對所述HTML文件中文本進行斷句的方法是:尋找HTML文件中的文字,并根據斷句邏輯合并或者拆分原始的HTML元素,得到句子單元。
所述翻譯界面包括原文譯文展示窗口和逐句翻譯交互窗口;將HTML文件中的元素全部顯示在所述原文譯文展示窗口內;在逐句翻譯交互窗口內,逐句接收譯員的對該句子的翻譯文本輸入、編輯及確認命令,并將翻譯文本寫入所述該句子的譯文標識指向的譯文段。
接收譯員對所述原文譯文展示窗口中某一個句子選擇之后,所述逐句翻譯交互窗口接收譯員的對該句子的翻譯文本輸入、編輯及確認命令。
所述刷新顯示原文譯文展示窗口后,自動順序選中下一個原文句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于語聯網(武漢)信息技術有限公司,未經語聯網(武漢)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711175572.3/2.html,轉載請聲明來源鉆瓜專利網。





