[發(fā)明專利]文檔處理方法以及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201810173169.5 | 申請(qǐng)日: | 2018-03-01 |
| 公開(kāi)(公告)號(hào): | CN108334481B | 公開(kāi)(公告)日: | 2021-08-27 |
| 發(fā)明(設(shè)計(jì))人: | 屈耕 | 申請(qǐng)(專利權(quán))人: | 四川語(yǔ)言橋信息技術(shù)有限公司 |
| 主分類號(hào): | G06F40/151 | 分類號(hào): | G06F40/151;G06F40/126 |
| 代理公司: | 北京超凡志成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11371 | 代理人: | 王文紅 |
| 地址: | 610000 四川*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 處理 方法 以及 裝置 | ||
本發(fā)明提供了一種文檔處理方法以及裝置,主要是通過(guò)提取XML中的需要翻譯的文本,然后對(duì)其進(jìn)行替換實(shí)現(xiàn)無(wú)差異還原,能夠高保真的還原原文檔格式。通過(guò)部分可視化元素,減少頁(yè)面(編輯器)標(biāo)簽,通過(guò)多源文檔解壓后的xml元素加唯一性id和model中標(biāo)簽id對(duì)應(yīng),實(shí)現(xiàn)元素節(jié)點(diǎn)還原,能夠?qū)崿F(xiàn)較好的保真效果。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種文檔處理方法以及裝置。
背景技術(shù)
近十年來(lái),信息技術(shù)、人工智能、自然語(yǔ)言處理等的發(fā)展,特別是計(jì)算機(jī)硬件承載能力持續(xù)增長(zhǎng),互聯(lián)網(wǎng)技術(shù)、云計(jì)算深入發(fā)展促使翻譯技術(shù)突飛猛進(jìn),翻譯系統(tǒng)功能不斷改善,翻譯行業(yè)生產(chǎn)力不斷提高,智能化、語(yǔ)境化、可視化、集成化、網(wǎng)絡(luò)協(xié)作化等特征越來(lái)越明顯。可以預(yù)見(jiàn),傳統(tǒng)翻譯生產(chǎn)方式將逐步被新技術(shù)洪流淹沒(méi),以云計(jì)算為基礎(chǔ)架構(gòu)的云翻譯系統(tǒng)將會(huì)粉墨登場(chǎng)。
當(dāng)前市面上的計(jì)算機(jī)程序中的計(jì)算機(jī)輔助翻譯軟件(Computer AidedTranslation,CAT)在針對(duì)Office在文檔文本提取和樣式存在標(biāo)簽過(guò)多的情況下時(shí),如Visualtran,WordFast,還原文件易丟失內(nèi)容,對(duì)譯后查找校對(duì)有較大影響,對(duì)翻譯后的文本內(nèi)容和樣式進(jìn)行還原時(shí),都容易丟失。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例的目的在于提供一種文檔處理方法以及裝置,以解決上述問(wèn)題。
第一方面,本發(fā)明實(shí)施例提供了一種文檔處理方法,所述方法包括:將預(yù)先獲取到的待處理文檔進(jìn)行識(shí)別,得到所述待處理文檔中的目標(biāo)節(jié)點(diǎn),所述目標(biāo)節(jié)點(diǎn)至少包括段落節(jié)點(diǎn)、文本和文本樣式節(jié)點(diǎn)以及文本節(jié)點(diǎn);基于預(yù)先保存的標(biāo)識(shí)符生成算法,對(duì)所述目標(biāo)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)標(biāo)記唯一性標(biāo)識(shí);將添加唯一性標(biāo)識(shí)后的待處理文檔進(jìn)行加密處理,得到加密文檔;將所述加密文檔按照節(jié)點(diǎn)的不同分別保存在預(yù)先設(shè)置的標(biāo)簽?zāi)P蛢?nèi);獲取與所述待處理文檔對(duì)應(yīng)的譯文;將所述譯文與保存在所述標(biāo)簽?zāi)P蛢?nèi)的所述文本節(jié)點(diǎn)進(jìn)行替換;對(duì)進(jìn)行替換后的所述加密文檔進(jìn)行解密后,基于所述唯一性標(biāo)識(shí),將替換后的所述加密文檔進(jìn)行還原。
第二方面,本發(fā)明實(shí)施例提供了一種文檔處理裝置,所述裝置包括:識(shí)別模塊,用于將預(yù)先獲取到的待處理文檔進(jìn)行識(shí)別,得到所述待處理文檔中的目標(biāo)節(jié)點(diǎn),所述目標(biāo)節(jié)點(diǎn)至少包括段落節(jié)點(diǎn)、文本和文本樣式節(jié)點(diǎn)以及文本節(jié)點(diǎn);標(biāo)記模塊,用于基于預(yù)先保存的標(biāo)識(shí)符生成算法,對(duì)所述目標(biāo)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)標(biāo)記唯一性標(biāo)識(shí);加密模塊,用于將添加唯一性標(biāo)識(shí)后的待處理文檔進(jìn)行加密處理,得到加密文檔;保存模塊,用于將所述加密文檔按照節(jié)點(diǎn)的不同分別保存在預(yù)先設(shè)置的標(biāo)簽?zāi)P蛢?nèi);獲取模塊,用于獲取與所述待處理文檔對(duì)應(yīng)的譯文;替換模塊,用于將所述譯文與保存在所述標(biāo)簽?zāi)P蛢?nèi)的所述文本節(jié)點(diǎn)進(jìn)行替換;還原模塊,用于對(duì)進(jìn)行替換后的所述加密文檔進(jìn)行解密后,基于所述唯一性標(biāo)識(shí),將替換后的所述加密文檔進(jìn)行還原。
與現(xiàn)有技術(shù)相比,本發(fā)明各實(shí)施例提出的文檔處理方法以及裝置,通過(guò)將預(yù)先獲取到的待處理文檔進(jìn)行識(shí)別,得到所述待處理文檔中的目標(biāo)節(jié)點(diǎn),所述目標(biāo)節(jié)點(diǎn)至少包括段落節(jié)點(diǎn)、文本和文本樣式節(jié)點(diǎn)以及文本節(jié)點(diǎn);基于預(yù)先保存的標(biāo)識(shí)符生成算法,對(duì)所述目標(biāo)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)標(biāo)記唯一性標(biāo)識(shí);將添加唯一性標(biāo)識(shí)后的待處理文檔進(jìn)行加密處理,得到加密文檔;將所述加密文檔按照節(jié)點(diǎn)的不同分別保存在預(yù)先設(shè)置的標(biāo)簽?zāi)P蛢?nèi);獲取與所述待處理文檔對(duì)應(yīng)的譯文;將所述譯文與保存在所述標(biāo)簽?zāi)P蛢?nèi)的所述文本節(jié)點(diǎn)進(jìn)行替換;對(duì)進(jìn)行替換后的所述加密文檔進(jìn)行解密后,基于所述唯一性標(biāo)識(shí),將替換后的所述加密文檔進(jìn)行還原。本方案主要是通過(guò)提取XML中的需要翻譯的文本,然后對(duì)其進(jìn)行替換實(shí)現(xiàn)無(wú)差異還原,能夠高保真的還原原文檔的格式。通過(guò)部分可視化元素,減少頁(yè)面(編輯器)標(biāo)簽,通過(guò)多源文檔解壓后的xml元素加唯一性id和model中標(biāo)簽id對(duì)應(yīng),實(shí)現(xiàn)元素節(jié)點(diǎn)還原,能夠?qū)崿F(xiàn)較好的保真效果。減少了以前譯員排版的煩惱。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。
附圖說(shuō)明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川語(yǔ)言橋信息技術(shù)有限公司,未經(jīng)四川語(yǔ)言橋信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810173169.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 接收裝置以及接收方法、以及程序
- 凈水濾芯以及凈水裝置、以及洗漱臺(tái)
- 隱匿檢索系統(tǒng)以及公開(kāi)參數(shù)生成裝置以及加密裝置以及用戶秘密密鑰生成裝置以及查詢發(fā)布裝置以及檢索裝置以及計(jì)算機(jī)程序以及隱匿檢索方法以及公開(kāi)參數(shù)生成方法以及加密方法以及用戶秘密密鑰生成方法以及查詢發(fā)布方法以及檢索方法
- 編碼方法以及裝置、解碼方法以及裝置
- 編碼方法以及裝置、解碼方法以及裝置
- 圖片顯示方法以及裝置以及移動(dòng)終端
- ENB以及UEUL發(fā)送以及接收的方法
- X射線探測(cè)方法以及裝置以及系統(tǒng)
- 圖書(shū)信息錄入方法以及系統(tǒng)以及書(shū)架
- 護(hù)耳器以及口罩以及眼鏡





