[發(fā)明專利]一種文檔翻譯系統(tǒng)及文檔翻譯方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910913794.3 | 申請(qǐng)日: | 2019-09-25 |
| 公開(公告)號(hào): | CN110688863B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 劉立新;楊彬;賀文蝶;倪一非 | 申請(qǐng)(專利權(quán))人: | 六維聯(lián)合信息科技(北京)有限公司 |
| 主分類號(hào): | G06F40/58 | 分類號(hào): | G06F40/58;G06F40/30;G06F40/151 |
| 代理公司: | 北京冠和權(quán)律師事務(wù)所 11399 | 代理人: | 朱健 |
| 地址: | 100000 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 翻譯 系統(tǒng) 方法 | ||
本發(fā)明提供了一種文檔翻譯系統(tǒng)及文檔翻譯方法,所述文檔翻譯系統(tǒng)包括:文檔格式轉(zhuǎn)換模塊,用于將待翻譯文檔的格式轉(zhuǎn)換為XML格式;文檔內(nèi)容抽取模塊,用于自動(dòng)識(shí)別并提取轉(zhuǎn)換為XML格式的所述待翻譯文檔中的內(nèi)容,以獲取提取內(nèi)容;文檔翻譯模塊,用于對(duì)所述提取內(nèi)容進(jìn)行翻譯,獲得翻譯文檔。根據(jù)本發(fā)明的文檔翻譯系統(tǒng),將待翻譯文檔轉(zhuǎn)換為XML格式后,便于對(duì)待翻譯文檔中的內(nèi)容進(jìn)行自動(dòng)識(shí)別及提取,并且在自動(dòng)識(shí)別及提取后進(jìn)行翻譯,可以根據(jù)對(duì)行、段落的分析進(jìn)行翻譯,更加符合用戶的閱讀習(xí)慣,提高翻譯效果,進(jìn)而提高了用戶體驗(yàn)。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器翻譯技術(shù)領(lǐng)域,特別涉及一種文檔翻譯系統(tǒng)及文檔翻譯方法。
背景技術(shù)
隨著國(guó)際化程度的不斷深入,國(guó)際間交流越來(lái)越頻繁。其中大量的不同語(yǔ)種的文件需要翻譯。機(jī)器翻譯是利用計(jì)算機(jī)將一種自然語(yǔ)言(源語(yǔ)言)轉(zhuǎn)換成另一種自然語(yǔ)言(目標(biāo)語(yǔ)言)的過(guò)程。因其翻譯效率明顯高于人工,能協(xié)助用戶更快速獲取信息情報(bào),因此具有重要的實(shí)用價(jià)值。據(jù)全球最大的市場(chǎng)研究庫(kù)ResearchMarkets預(yù)測(cè),2023年全球機(jī)器翻譯市場(chǎng)規(guī)模將達(dá)1.95億美元。2017至2023年期間,機(jī)器翻譯市場(chǎng)的復(fù)合年增長(zhǎng)率超過(guò)6.0%,并在2023年達(dá)到1.95億美元。現(xiàn)有的機(jī)器翻譯軟件,比如翻譯狗、Transgod采用機(jī)器翻譯引擎進(jìn)行全文翻譯。
目前的機(jī)器翻譯對(duì)于文檔而言,是“一視同仁”的,即對(duì)于文檔中的文字,進(jìn)行全文翻譯,不會(huì)自動(dòng)識(shí)別文檔中的內(nèi)容,這極大地降低了用戶體驗(yàn)。
發(fā)明內(nèi)容
本發(fā)明提供一種文檔翻譯系統(tǒng)及文檔翻譯方法,用以根據(jù)對(duì)行、段落的分析進(jìn)行翻譯,更加符合用戶的閱讀習(xí)慣,提高翻譯效果。
本發(fā)明提供一種文檔翻譯系統(tǒng),包括:
文檔格式轉(zhuǎn)換模塊,用于將待翻譯文檔的格式轉(zhuǎn)換為XML格式;
文檔內(nèi)容抽取模塊,用于自動(dòng)識(shí)別并提取轉(zhuǎn)換為XML格式的所述待翻譯文檔中的內(nèi)容,以獲取提取內(nèi)容;
文檔翻譯模塊,用于對(duì)所述提取內(nèi)容進(jìn)行翻譯,獲得翻譯文檔。
進(jìn)一步地,所述文檔翻譯系統(tǒng)還包括文檔組裝模塊,用于將所述待翻譯文檔和所述翻譯文檔進(jìn)行組裝,獲得組裝文檔,所述文檔組裝模塊包括文檔生成組件、文檔分割組件、文檔補(bǔ)全組件或文檔合并組件,其中,
所述文檔生成組件用于基于所述待翻譯文檔和所述翻譯文檔,生成包括所述待翻譯文檔和與所述待翻譯文檔對(duì)應(yīng)的所述翻譯文檔的雙語(yǔ)對(duì)照文檔;
所述文檔分割組件用于根據(jù)所述待翻譯文檔中的頁(yè)碼,對(duì)所述翻譯文檔的頁(yè)碼進(jìn)行分割,以使所述雙語(yǔ)對(duì)照文檔中的所述翻譯文檔的頁(yè)碼與所述待翻譯文檔中的頁(yè)碼相對(duì)應(yīng):
所述文檔補(bǔ)全組件用于根據(jù)所述翻譯文檔的頁(yè)碼,將所述雙語(yǔ)對(duì)照文檔中的所述翻譯文檔進(jìn)行補(bǔ)全,以使所述翻譯文檔的若干頁(yè)面的內(nèi)容與所述待翻譯文檔中的每一頁(yè)面的內(nèi)容相對(duì)應(yīng):
所述文檔合并組件用于將每一頁(yè)面的所述待翻譯文檔和與每一頁(yè)面的所述待翻譯文檔相對(duì)應(yīng)的若干頁(yè)面的所述翻譯文檔進(jìn)行合并,獲得合并文檔。
進(jìn)一步地,所述文檔格式轉(zhuǎn)換模塊包括:
文檔格式轉(zhuǎn)化組件,用于將所述待翻譯文檔的非PDF格式轉(zhuǎn)化為PDF格式;
內(nèi)容抽取組件,用于分別抽取所述待翻譯文檔中的文本、圖像、表格中的內(nèi)容;
XML格式轉(zhuǎn)化組件,用于分別將抽取的所述待翻譯文檔中的文本、圖像、表格中的內(nèi)容轉(zhuǎn)化為XML格式文檔。
進(jìn)一步地,所述文檔內(nèi)容抽取模塊包括基于坐標(biāo)行的分析組件、基于坐標(biāo)段落的分析組件、基于語(yǔ)義段落的分析組件或基于經(jīng)驗(yàn)段落的分析組件,其中,所述基于坐標(biāo)行的分析組件用于根據(jù)坐標(biāo)行訓(xùn)練模型,分別提取轉(zhuǎn)換為XML格式的所述待翻譯文檔中的每一行的內(nèi)容;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于六維聯(lián)合信息科技(北京)有限公司,未經(jīng)六維聯(lián)合信息科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910913794.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 一種構(gòu)建多語(yǔ)言網(wǎng)站實(shí)時(shí)翻譯的方法
- 一種待翻譯軟件的翻譯方法及裝置
- 一種待翻譯軟件的翻譯方法及裝置
- 一種CAT系統(tǒng)中翻譯記憶庫(kù)和MT結(jié)合的方法及系統(tǒng)
- 翻譯方法、系統(tǒng)、終端以及存儲(chǔ)介質(zhì)
- 一種文本展示方法及裝置
- 機(jī)器翻譯方法及裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 翻譯系統(tǒng)、翻譯方法、翻譯機(jī)及存儲(chǔ)介質(zhì)
- 文字翻譯方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





