日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于翻譯的word文檔解析方法在審

專利信息
申請號: 201611180452.8 申請日: 2016-12-19
公開(公告)號: CN106649271A 公開(公告)日: 2017-05-10
發明(設計)人: 席斌;李明;王興強;張馬成;彭成超 申請(專利權)人: 成都優譯信息技術股份有限公司
主分類號: G06F17/27 分類號: G06F17/27;G06F17/21;G06F17/28
代理公司: 成都行之專利代理事務所(普通合伙)51220 代理人: 田甜
地址: 610000 四川省成都*** 國省代碼: 四川;51
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 翻譯 word 文檔 解析 方法
【說明書】:

技術領域

發明涉及翻譯技術領域,具體涉及一種基于翻譯的word文檔解析方法。

背景技術

計算機輔助翻譯軟件發展到今天,已經形成了翻譯、記憶、存儲等不同的技術原理。計算機輔助翻譯軟件在對word文檔進行處理時,會先對word文檔進行解析。現有的word文檔解析方法在處理過程中,其存在如下問題,若文檔中存在如圖1所示表格嵌表格的情況,則表格中的表格不能被解析出來,從而導致漏翻的情況。

發明內容

本發明為了解決上述技術問題提供一種基于翻譯的word文檔解析方法。

本發明通過下述技術方案實現:

一種基于翻譯的word文檔解析方法,包括以下步驟,

利用XPath掃描解析XML格式文件;

根據掃描得到的wp標簽內容構造POI段落;

解析段落中原文文本和樣式,記錄wp在文件中的位置信息并編號。

本方案的方法利用XPath對XML格式文件進行掃描,由于XML格式文件中段落的構成是以wp標簽做為段前和段后的標識,通過對wp標簽的識別從而有效識別段落。當word文檔中存在表格嵌表格的情況時,也能有效的對表格中表格的段落進行識別,有效的避免漏翻的情況。

作為優選,在掃描解析XML格式文件之前還包括文本轉換步驟,該步驟具體為:若原文為word文件,則直接將其轉換為XML格式的文件;若原文為PDF格式的文件,先將其轉換為word文件再轉換為XML格式的文件。

進一步的,所述word文件為2003以后的版本文件,若word文件為2003以前的版本,還包括版本轉化步驟。由于2003以前的word版本轉化為XML格式后,其段落標志沒有wp標簽,故許對其進行版本轉化。

本發明與現有技術相比,具有如下的優點和有益效果:

本發明利用XPath對XML格式文件進行掃描解析,通過識別wp標簽實現對段落得識別,有效的避免表格嵌表格時,表格中表格的段落不能被識別出線漏翻的情況。

附圖說明

圖1為表格嵌表格的結構圖。

具體實施方式

為使本發明的目的、技術方案和優點更加清楚明白,下面結合實施例,對本發明作進一步的詳細說明,本發明的示意性實施方式及其說明僅用于解釋本發明,并不作為對本發明的限定。

實施例1

一種基于翻譯的word文檔解析方法,包括以下步驟,

利用XPath掃描解析XML格式文件,獲得XML格式文件中的wp標簽,包括對頁眉、頁腳和正文的掃描;

根據掃描得到的wp標簽內容構造POI段落,POI即Apache POI,是創建和維護操作各種符合Office Open XML標準和微軟的OLE 2復合文檔格式的Java API;

解析段落中原文文本和樣式,記錄wp在文件中的位置信息并編號。原文文本和樣式的解析即將原文翻譯成html,主要有兩方面的用處:1)用html來記錄原文的內容和它的樣式,原文內容是指文件中的文字,樣式是指文字上具有的樣式如:加粗,下劃線,文字顏色等,這樣使得文件內容和樣式能在翻譯網頁進行展示。2)用戶在網頁上對譯文設置樣式后,在進行譯文回填時還需從html中解析得到譯文保存到文件時所需要設置和譯文內容和樣式,這樣才能使得文件中保存的譯文內容和樣式與用戶在網頁上設置的譯文樣式一致。記錄wp在文件中的位置信息并編號即記錄每段的段數信息,為譯文的回填做準備。

POI的段落提供了很多操作接口方便用戶在word段落上進行各種操作。如果用戶自行處理表示word段落的xml數據很容易出現錯誤且程序的執行效率不高。

實施例2

上述實施例適用于2003以后的word版本文件,若其為2003以前的word版本或PDF文件,則在上述實施例的步驟之前,還包括版本轉化步驟,具體為:將word文件轉化為2003以后的word版本文件;若原文為PDF格式的文件,先將其轉換為2003以后的word版本。

接下來將2003以后的word版本轉換為XML格式的文件。

以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,并不用于限定本發明的保護范圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都優譯信息技術股份有限公司,未經成都優譯信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611180452.8/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产麻豆91视频| 国产精品一区二区免费视频| 456亚洲精品| 99视频一区| 欧美日韩久久一区| 亚洲一二区在线观看| 国产一区二区高潮| 91国产在线看| 久久99亚洲精品久久99果| 欧美午夜理伦三级在线观看偷窥| 国产国产精品久久久久| 日本一二三区视频在线| 精品国产乱码久久久久久a丨| 激情久久综合| 国产精品日韩高清伦字幕搜索| 狠狠躁夜夜av| 日韩中文字幕一区二区在线视频| 国产在线一卡| 精品综合久久久久| 91精品视频在线观看免费| 久爱视频精品| 国产精品国精产品一二三区| 粉嫩久久久久久久极品| 亚洲伊人久久影院| 免费精品一区二区三区第35| 国产99久久久精品视频| 狠狠色噜噜狠狠狠狠88| 国产一区二区在线91| 日韩av在线影院| 欧美日韩国产欧美| 亚洲欧美色图在线| 国产精品入口麻豆九色| 亚洲精品久久久中文| 日韩精品久久久久久久酒店| 狠狠色狠狠色综合日日2019| 久久一区二区精品视频| 日韩精品一区二区亚洲| 欧美日韩国产精品一区二区三区| 日韩精品中文字幕久久臀| 国产伦高清一区二区三区| 亚洲一区精品视频| 欧美精品日韩| 国产精品视频99| 国产农村妇女精品一二区| 超碰97国产精品人人cao| aaaaa国产欧美一区二区| 久久亚洲精品国产日韩高潮| 91国偷自产一区二区介绍| 国产农村妇女精品一二区| 国产精品视频二区三区| 理论片午午伦夜理片在线播放| 夜夜爽av福利精品导航| 四季av中文字幕一区| 一本一道久久a久久精品综合蜜臀| 亚洲欧美一二三| 国产电影精品一区| 91精品美女| 久久99精品国产| 国偷自产中文字幕亚洲手机在线| 欧美福利三区| bbbbb女女女女女bbbbb国产| 国产精品美女久久久另类人妖| 性欧美一区二区| 精品国产一级| 日本午夜无人区毛片私人影院| 91精品久久久久久| 少妇久久免费视频| 国产一区二区资源| 麻豆视频免费播放| 欧美精品国产精品| 久久精品国产99| 国产一区二区视频免费在线观看 | 欧美日韩精品在线一区二区| 丰满岳乱妇bd在线观看k8| 国产高清一区二区在线观看| 年轻bbwbbw高潮| 在线电影一区二区| 欧美亚洲精品一区二区三区| 久久精品爱爱视频| 欧美乱妇高清无乱码免费| 欧美精品在线观看一区二区| 欧美一区二区三区久久精品|