[發明專利]一種基于翻譯的word文檔解析方法在審
| 申請號: | 201611180452.8 | 申請日: | 2016-12-19 |
| 公開(公告)號: | CN106649271A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 席斌;李明;王興強;張馬成;彭成超 | 申請(專利權)人: | 成都優譯信息技術股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/21;G06F17/28 |
| 代理公司: | 成都行之專利代理事務所(普通合伙)51220 | 代理人: | 田甜 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 翻譯 word 文檔 解析 方法 | ||
技術領域
本發明涉及翻譯技術領域,具體涉及一種基于翻譯的word文檔解析方法。
背景技術
計算機輔助翻譯軟件發展到今天,已經形成了翻譯、記憶、存儲等不同的技術原理。計算機輔助翻譯軟件在對word文檔進行處理時,會先對word文檔進行解析。現有的word文檔解析方法在處理過程中,其存在如下問題,若文檔中存在如圖1所示表格嵌表格的情況,則表格中的表格不能被解析出來,從而導致漏翻的情況。
發明內容
本發明為了解決上述技術問題提供一種基于翻譯的word文檔解析方法。
本發明通過下述技術方案實現:
一種基于翻譯的word文檔解析方法,包括以下步驟,
利用XPath掃描解析XML格式文件;
根據掃描得到的wp標簽內容構造POI段落;
解析段落中原文文本和樣式,記錄wp在文件中的位置信息并編號。
本方案的方法利用XPath對XML格式文件進行掃描,由于XML格式文件中段落的構成是以wp標簽做為段前和段后的標識,通過對wp標簽的識別從而有效識別段落。當word文檔中存在表格嵌表格的情況時,也能有效的對表格中表格的段落進行識別,有效的避免漏翻的情況。
作為優選,在掃描解析XML格式文件之前還包括文本轉換步驟,該步驟具體為:若原文為word文件,則直接將其轉換為XML格式的文件;若原文為PDF格式的文件,先將其轉換為word文件再轉換為XML格式的文件。
進一步的,所述word文件為2003以后的版本文件,若word文件為2003以前的版本,還包括版本轉化步驟。由于2003以前的word版本轉化為XML格式后,其段落標志沒有wp標簽,故許對其進行版本轉化。
本發明與現有技術相比,具有如下的優點和有益效果:
本發明利用XPath對XML格式文件進行掃描解析,通過識別wp標簽實現對段落得識別,有效的避免表格嵌表格時,表格中表格的段落不能被識別出線漏翻的情況。
附圖說明
圖1為表格嵌表格的結構圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚明白,下面結合實施例,對本發明作進一步的詳細說明,本發明的示意性實施方式及其說明僅用于解釋本發明,并不作為對本發明的限定。
實施例1
一種基于翻譯的word文檔解析方法,包括以下步驟,
利用XPath掃描解析XML格式文件,獲得XML格式文件中的wp標簽,包括對頁眉、頁腳和正文的掃描;
根據掃描得到的wp標簽內容構造POI段落,POI即Apache POI,是創建和維護操作各種符合Office Open XML標準和微軟的OLE 2復合文檔格式的Java API;
解析段落中原文文本和樣式,記錄wp在文件中的位置信息并編號。原文文本和樣式的解析即將原文翻譯成html,主要有兩方面的用處:1)用html來記錄原文的內容和它的樣式,原文內容是指文件中的文字,樣式是指文字上具有的樣式如:加粗,下劃線,文字顏色等,這樣使得文件內容和樣式能在翻譯網頁進行展示。2)用戶在網頁上對譯文設置樣式后,在進行譯文回填時還需從html中解析得到譯文保存到文件時所需要設置和譯文內容和樣式,這樣才能使得文件中保存的譯文內容和樣式與用戶在網頁上設置的譯文樣式一致。記錄wp在文件中的位置信息并編號即記錄每段的段數信息,為譯文的回填做準備。
POI的段落提供了很多操作接口方便用戶在word段落上進行各種操作。如果用戶自行處理表示word段落的xml數據很容易出現錯誤且程序的執行效率不高。
實施例2
上述實施例適用于2003以后的word版本文件,若其為2003以前的word版本或PDF文件,則在上述實施例的步驟之前,還包括版本轉化步驟,具體為:將word文件轉化為2003以后的word版本文件;若原文為PDF格式的文件,先將其轉換為2003以后的word版本。
接下來將2003以后的word版本轉換為XML格式的文件。
以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,并不用于限定本發明的保護范圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都優譯信息技術股份有限公司,未經成都優譯信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611180452.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:兒童安全座椅(CC01)
- 下一篇:兒童安全座椅(CC02)





