[發明專利]一種文檔文字的深度處理方法有效
| 申請號: | 201610138137.2 | 申請日: | 2016-03-11 |
| 公開(公告)號: | CN105760368B | 公開(公告)日: | 2019-02-12 |
| 發明(設計)人: | 張廣睿 | 申請(專利權)人: | 張廣睿 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/21;G06F17/22;G06F17/27 |
| 代理公司: | 成都天嘉專利事務所(普通合伙) 51211 | 代理人: | 鄧小兵 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 文字 深度 處理 方法 | ||
1.一種文檔文字的深度處理方法,其特征在于包括以下步驟:
(1)、提取待翻譯文檔中的文字信息,并統一文字信息的格式,得到格式統一的文檔;
(2)、對格式統一的文檔進行拆分,將其拆分成以單詞、詞組、單句中的任意一種或幾種為最小單位的待譯文字數據集合,去掉非譯文字后再去掉待譯文字數據集合中重復的待譯文字數據,然后將剩下的每一個待譯文字數據依次與筆譯記憶庫中的內容進行比對,而后刪除待譯文字數據集合中與筆譯記憶庫中相重復的內容;其中,所述的筆譯記憶庫中設置有原文列一和譯文列一,原文列一中存儲有已譯文檔的原文,譯文列一中對應存儲有已譯文檔的譯文;
(3)、建立一個譯前處理文檔,并在該譯前處理文檔中設置原文列、譯文列和專有術語列,先將經步驟(2)處理后的待譯文字數據集合中的每一個待譯文字數據按順序復制到原文列中,再根據預先制作的專有術語表,將每一個待譯文字數據中涉及到的專有術語的原文和譯文寫入對應的專有術語列,得到匹配有專有術語的譯前處理文檔;
(4)、提取譯前處理文檔中原文列的待譯文字數據集合,同時提取專有術語表中的原文和譯文的文字信息并建立專有術語表文字數據集合,將譯前處理文檔中原文列包含的專有術語表中的原文文字數據替換成專有術語表中的譯文文字數據,替換后得到譯文和原文混雜的原文列文字數據,再使用步驟(2)中的去掉重復工序和比對工序對譯文和原文混雜的原文列文字數據進行二次處理,得到最終的譯前處理文檔;
(5)、由譯員對最終的譯前處理文檔中原文列對應的所有待譯文字數據進行翻譯,并將譯文填寫至對應的譯文列,得到譯后處理文檔;
(6)、先將待翻譯文檔中與譯后處理文檔中的原文列相同的待譯文字數據替換成譯文,再使用原文列一中原文所對應的譯文列一中的譯文替換待翻譯文檔中出現在原文列一中的原文,最后得到與待翻譯文檔相同格式的譯文。
2.如權利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述的專有術語表包括專有單詞術語表、專有詞組術語表和專有單句術語表。
3.如權利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述的處理方法中涉及到的文檔均為Office文檔。
4.如權利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述步驟(2)中采用換行符、標點符號、空格中的一種或幾種的組合對文檔自動進行拆分。
5.如權利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述步驟(2)中的非譯文字包括標點符號、數字、單個字母、非原文文字的文字中的一種或幾種的組合。
6.如權利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述步驟(6)中的譯后處理文檔中的原文列和譯文列以一一對應的方式存儲在筆譯記憶庫中,存儲后的已譯文檔可導出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張廣睿,未經張廣睿許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610138137.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種插件式報表框架技術
- 下一篇:文本文件的詞義消歧方法及裝置





