[發(fā)明專利]一種文檔文字的深度處理方法有效
| 申請(qǐng)?zhí)枺?/td> | 201610138137.2 | 申請(qǐng)日: | 2016-03-11 |
| 公開(公告)號(hào): | CN105760368B | 公開(公告)日: | 2019-02-12 |
| 發(fā)明(設(shè)計(jì))人: | 張廣睿 | 申請(qǐng)(專利權(quán))人: | 張廣睿 |
| 主分類號(hào): | G06F17/28 | 分類號(hào): | G06F17/28;G06F17/21;G06F17/22;G06F17/27 |
| 代理公司: | 成都天嘉專利事務(wù)所(普通合伙) 51211 | 代理人: | 鄧小兵 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 文字 深度 處理 方法 | ||
1.一種文檔文字的深度處理方法,其特征在于包括以下步驟:
(1)、提取待翻譯文檔中的文字信息,并統(tǒng)一文字信息的格式,得到格式統(tǒng)一的文檔;
(2)、對(duì)格式統(tǒng)一的文檔進(jìn)行拆分,將其拆分成以單詞、詞組、單句中的任意一種或幾種為最小單位的待譯文字?jǐn)?shù)據(jù)集合,去掉非譯文字后再去掉待譯文字?jǐn)?shù)據(jù)集合中重復(fù)的待譯文字?jǐn)?shù)據(jù),然后將剩下的每一個(gè)待譯文字?jǐn)?shù)據(jù)依次與筆譯記憶庫中的內(nèi)容進(jìn)行比對(duì),而后刪除待譯文字?jǐn)?shù)據(jù)集合中與筆譯記憶庫中相重復(fù)的內(nèi)容;其中,所述的筆譯記憶庫中設(shè)置有原文列一和譯文列一,原文列一中存儲(chǔ)有已譯文檔的原文,譯文列一中對(duì)應(yīng)存儲(chǔ)有已譯文檔的譯文;
(3)、建立一個(gè)譯前處理文檔,并在該譯前處理文檔中設(shè)置原文列、譯文列和專有術(shù)語列,先將經(jīng)步驟(2)處理后的待譯文字?jǐn)?shù)據(jù)集合中的每一個(gè)待譯文字?jǐn)?shù)據(jù)按順序復(fù)制到原文列中,再根據(jù)預(yù)先制作的專有術(shù)語表,將每一個(gè)待譯文字?jǐn)?shù)據(jù)中涉及到的專有術(shù)語的原文和譯文寫入對(duì)應(yīng)的專有術(shù)語列,得到匹配有專有術(shù)語的譯前處理文檔;
(4)、提取譯前處理文檔中原文列的待譯文字?jǐn)?shù)據(jù)集合,同時(shí)提取專有術(shù)語表中的原文和譯文的文字信息并建立專有術(shù)語表文字?jǐn)?shù)據(jù)集合,將譯前處理文檔中原文列包含的專有術(shù)語表中的原文文字?jǐn)?shù)據(jù)替換成專有術(shù)語表中的譯文文字?jǐn)?shù)據(jù),替換后得到譯文和原文混雜的原文列文字?jǐn)?shù)據(jù),再使用步驟(2)中的去掉重復(fù)工序和比對(duì)工序?qū)ψg文和原文混雜的原文列文字?jǐn)?shù)據(jù)進(jìn)行二次處理,得到最終的譯前處理文檔;
(5)、由譯員對(duì)最終的譯前處理文檔中原文列對(duì)應(yīng)的所有待譯文字?jǐn)?shù)據(jù)進(jìn)行翻譯,并將譯文填寫至對(duì)應(yīng)的譯文列,得到譯后處理文檔;
(6)、先將待翻譯文檔中與譯后處理文檔中的原文列相同的待譯文字?jǐn)?shù)據(jù)替換成譯文,再使用原文列一中原文所對(duì)應(yīng)的譯文列一中的譯文替換待翻譯文檔中出現(xiàn)在原文列一中的原文,最后得到與待翻譯文檔相同格式的譯文。
2.如權(quán)利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述的專有術(shù)語表包括專有單詞術(shù)語表、專有詞組術(shù)語表和專有單句術(shù)語表。
3.如權(quán)利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述的處理方法中涉及到的文檔均為Office文檔。
4.如權(quán)利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述步驟(2)中采用換行符、標(biāo)點(diǎn)符號(hào)、空格中的一種或幾種的組合對(duì)文檔自動(dòng)進(jìn)行拆分。
5.如權(quán)利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述步驟(2)中的非譯文字包括標(biāo)點(diǎn)符號(hào)、數(shù)字、單個(gè)字母、非原文文字的文字中的一種或幾種的組合。
6.如權(quán)利要求1所述的一種文檔文字的深度處理方法,其特征在于:所述步驟(6)中的譯后處理文檔中的原文列和譯文列以一一對(duì)應(yīng)的方式存儲(chǔ)在筆譯記憶庫中,存儲(chǔ)后的已譯文檔可導(dǎo)出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于張廣睿,未經(jīng)張廣睿許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610138137.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備





