[發明專利]一種文檔文字的深度處理方法有效
| 申請號: | 201610138137.2 | 申請日: | 2016-03-11 |
| 公開(公告)號: | CN105760368B | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 張廣睿 | 申請(專利權)人: | 張廣睿 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/21;G06F17/22;G06F17/27 |
| 代理公司: | 成都天嘉專利事務所(普通合伙) 51211 | 代理人: | 鄧小兵 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 文字 深度 處理 方法 | ||
本發明公開了一種文檔文字的深度處理方法,包括以下步驟:(1)、提取待翻譯文檔的文字信息;(2)、將文檔拆分成最小單位的待譯文字數據集合,去掉非譯文字和重復的待譯文字數據;(3)、建立譯前處理文檔,先將待譯文字數據復制到原文列中,再將涉及到的專有術語的原文和譯文寫入對應的專有術語列,得到匹配有專有術語的譯前處理文檔;(4)、將譯前處理文檔中原文列包含的專有術語表中的原文文字數據替換成專有術語表中的譯文文字數據,對此文字數據二次處理,得到最終的譯前處理文檔;(5)、譯員對原文列翻譯;(6)、將譯文替換成原文,得到譯文。本發明能在處理文檔前預先深度去除文檔中重復的單內容,達到提高翻譯效率的目的。
技術領域
本發明涉及翻譯技術領域,具體地說涉及一種文檔文字的深度處理方法。
背景技術
從上世紀80年代中期開始,基于語料和多引擎機譯方法的廣泛運用,翻譯軟件的性能和效率有了明顯提高,各式各樣的翻譯軟件如雨后春筍般問世。采用預先編寫的軟件程序翻譯,極大提高了文本的翻譯速度。但由于語言表達的特殊性,翻譯軟件的翻譯質量一直屢遭詬病,翻譯軟件的原理是將兩種語言的語義一一對應存儲,翻譯時機械調用替換,由于語言表達的多樣性,每個字、單詞、詞組或單句往往對應不止一個意思,完全使用翻譯軟件所得到的譯文通常不能正常表達原文含義,因此人工翻譯仍然是獲得高翻譯質量的保證。
現有技術中,針對一個項目或長篇文檔來說,往往是在一個團隊中分成多份來翻譯,但由于譯員翻譯習性的不同,往往會出現不同譯員翻譯相同含義的一句話而導致譯文不一致的情況。另外,這種采用團隊分成多份翻譯的方式,導致譯員經常重復翻譯具有相同含義的單詞、詞組或單句,不僅大幅增大了譯員的翻譯強度,還極大地降低了翻譯效率。
發明內容
本發明的目的在于解決現有技術中存在的上述問題,提供一種文檔文字的深度處理方法,本發明能夠更進一步地在處理文檔前預先深度去除文檔中重復的單詞、詞組或單句,同時參考匹配的專有術語詞匯,從而達到簡化譯員翻譯量、提高翻譯效率和提高翻譯前后準確率的目的。
為實現上述目的,本發明采用的技術方案如下:
一種文檔文字的深度處理方法,其特征在于包括以下步驟:
(1)、提取待翻譯文檔中的文字信息,并統一文字信息的格式,得到格式統一的文檔;
(2)、對格式統一的文檔進行拆分,將其拆分成以單詞、詞組、單句中的任意一種或幾種為最小單位的待譯文字數據集合,去掉非譯文字后再去掉待譯文字數據集合中重復的待譯文字數據,然后將剩下的每一個待譯文字數據依次與筆譯記憶庫中的內容進行比對,而后刪除待譯文字數據集合中與筆譯記憶庫中相重復的內容;其中,所述的筆譯記憶庫中設置有原文列一和譯文列一,原文列一中存儲有已譯文檔的原文,譯文列一中對應存儲有已譯文檔的譯文;
(3)、建立一個譯前處理文檔,并在該譯前處理文檔中設置原文列、譯文列和專有術語列,先將經步驟(2)處理后的待譯文字數據集合中的每一個待譯文字數據按順序復制到原文列中,再根據預先制作的專有術語表,將每一個待譯文字數據中涉及到的專有術語的原文和譯文寫入對應的專有術語列,得到匹配有專有術語的譯前處理文檔;
(4)、提取譯前處理文檔中原文列的待譯文字數據集合,同時提取專有術語表中的原文和譯文的文字信息并建立專有術語表文字數據集合,將譯前處理文檔中原文列包含的專有術語表中的原文文字數據替換成專有術語表中的譯文文字數據,替換后得到譯文和原文混雜的原文列文字數據,使用步驟(2)中的去掉重復工序和比對工序對此文字數據進行二次處理,得到最終的譯前處理文檔;
(5)、由譯員對最終的譯前處理文檔中原文列對應的所有待譯文字數據進行翻譯,并將譯文填寫至對應的譯文列,得到譯后處理文檔;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張廣睿,未經張廣睿許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610138137.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種插件式報表框架技術
- 下一篇:文本文件的詞義消歧方法及裝置





