[發明專利]一種利于翻譯工作的文件抽取和還原方法有效
| 申請號: | 201510357672.2 | 申請日: | 2015-06-25 |
| 公開(公告)號: | CN104933041B | 公開(公告)日: | 2017-09-01 |
| 發明(設計)人: | 江潮;羅偉峰 | 申請(專利權)人: | 武漢傳神信息技術有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 北京華沛德權律師事務所11302 | 代理人: | 房德權 |
| 地址: | 430074 湖北省武漢市東湖開發區光谷軟件*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利于 翻譯 工作 文件 抽取 還原 方法 | ||
技術領域
本發明涉及一種利于翻譯工作的人工智能、文檔處理的方法。
背景技術
伴隨著中國躋身于世界第二大經濟體,“一帶一路”等戰略的穩步實施,中國各領域與世界的聯系更為緊密。國際化的進程中多國之間的溝通交流所需要的語言支持服務市場顯得愈加龐大,這給翻譯行業帶來了新的機遇和挑戰。
翻譯行業的從業人員每天要面對大量的各種格式的需要翻譯的稿件,由于稿件的種類繁多,相應的翻譯人員就需要掌握各類文檔程序如Word,Excel,PPT,PDF的使用以及各類文檔輔助翻譯工具的使用。這對于專職的翻譯人員來說是很大的挑戰和門檻,很明顯這類問題已經阻礙到了整個行業的發展乃至于中國全球化的進程。
因此,需要提出一種將等多種主流文檔格式轉換成為統一的標準樣式的文檔并且也可以反過來將轉化得到的標準文檔還原為原稿格式的方法。以簡化翻譯工作、提高翻譯效率。
發明內容
本發明所要解決的技術問題是簡化翻譯工作、提高翻譯效率,提出一種利于翻譯工作的文件抽取和還原方法。
為解決上述技術問題,本發明提出的利于翻譯工作的文件抽取和還原方法,包括以下步驟:
1)利用Aspose動態鏈接庫對文檔處理的操作支持,將待翻譯的文檔對象拆解成以單句為最小單位的待翻譯數據集合;
2)建立一個譯員處理文檔,所述譯員處理文檔設有“原文”、“譯文”和id三個字段,所述“原文”字段對應句子原文,“譯文”字段對應句子譯文;
3)將所述以單句為最小單位的待翻譯數據集合中的每一個句子按順序逐一復制到所述譯員處理文檔的“原文”字段,然后將待翻譯數據集合中該句子的內容用一個具有唯一性的占位符號Guid替代,且相鄰的占位符號Guid具有不同的字符格式;所述id字段的內容與所述不同的Guid之間具有一一映射的關系;
4)將所述譯員處理文檔下發到譯員,所述譯員在所述譯員處理文檔中逐個翻譯“原文”字段的原文,填寫到對應的“譯文”字段,直到處理完成;
5)遍歷所述待翻譯數據集合和譯員處理文檔,根據不同Guid對應的不同id,找到該id對應的譯文,覆蓋寫到所述待翻譯數據集合中該對應Guid的位置。
6)調用Aspose動態鏈接庫,將所述待翻譯數據集合還原為原稿格式的文檔。
所述將待翻譯的文檔對象拆解成以句為最小單位的待翻譯數據集合,包括以下步驟:
1-1調用Aspose組件;
1-2遍歷所述文檔對象,得到全部段落對象,所述段落對象包含文檔對象全部的文字信息,而不包括無需翻譯的符號、圖像或其它非文字信息;
1-3遍歷每一個段落對象的子節點對象,從而得到若干個的字符集合對象Run。Aspose組件中提供段落對象、子節點對象,以及方便字符操作的Run對象,所述Run對象是文檔內連續的字符格式一致的字符片段集合。
1-4遍歷每一個Run對象,將全部Run對象拆分成一個個僅包含有一個完整的句子的Run對象,或者為僅包含有一個句子片段的Run對象;
1-5遍歷每一個Run對象,將僅包含有句子片段的Run對象合并到其后續的僅包含有一個完整的句子的Run對象中。
完成后,得到以句子為最小單位的,一個個僅包含有一個完整的句子的Run對象的集合。
所述將僅包含有一個句子片段的Run對象合并到后續Run對象,包括以下步驟:
1-4-1將僅為一個句子片段的Run對象的字符內容取出,存放在臨時存儲單元,然后在段落對象中刪除該Run對象;
1-4-2檢查下一個Run對象,如果該Run對象的字符內容僅為一個句子片段,則取出該Run對象的字符內容,添加到臨時存儲單元,然后在段落對象中刪除該Run對象,繼續檢查下下一個Run對象;否則,取出臨時存儲單元存放字符內容,添加到該下一個Run對象的字符內容之前,然后清空所述臨時存儲單元。
1-4-3如果該下一個Run對象的字符內容是以句子結束符作為結尾的,則將所述臨時存儲單元存放的字符內容取出,添加到該下一個Run對象的字符內容之前,然后清空所述臨時存儲單元。
本發明還包括,建立一個字典對象,所述字典對象的key為原文,value為譯文,原文-譯文為一個鍵值對;在遍歷所述譯員處理文檔時,將一個記錄中對應的原文-譯文,分別寫入所述字典對象。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢傳神信息技術有限公司,未經武漢傳神信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510357672.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中文地址分詞標注方法
- 下一篇:具有送線供氣導引選擇機構的縫紉機結構





