[發(fā)明專利]一種文檔翻譯系統(tǒng)及文檔翻譯方法有效
| 申請?zhí)枺?/td> | 201910913794.3 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110688863B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設計)人: | 劉立新;楊彬;賀文蝶;倪一非 | 申請(專利權)人: | 六維聯(lián)合信息科技(北京)有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/30;G06F40/151 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 朱健 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 翻譯 系統(tǒng) 方法 | ||
1.一種文檔翻譯系統(tǒng),其特征在于,包括:
文檔格式轉(zhuǎn)換模塊,用于將待翻譯文檔的格式轉(zhuǎn)換為XML格式;
文檔內(nèi)容抽取模塊,用于自動識別并提取轉(zhuǎn)換為XML格式的所述待翻譯文檔中的內(nèi)容,以獲取提取內(nèi)容;
文檔翻譯模塊,用于對所述提取內(nèi)容進行翻譯,獲得翻譯文檔;
所述文檔翻譯系統(tǒng)還包括文檔組裝模塊,用于將所述待翻譯文檔和所述翻譯文檔進行組裝,獲得組裝文檔,所述文檔組裝模塊包括文檔生成組件、文檔分割組件、文檔補全組件或文檔合并組件,其中,
所述文檔生成組件用于基于所述待翻譯文檔和所述翻譯文檔,生成包括所述待翻譯文檔和與所述待翻譯文檔對應的所述翻譯文檔的雙語對照文檔;
所述文檔分割組件用于根據(jù)所述待翻譯文檔中的頁碼,對所述翻譯文檔的頁碼進行分割,以使所述雙語對照文檔中的所述翻譯文檔的頁碼與所述待翻譯文檔中的頁碼相對應:
所述文檔補全組件用于根據(jù)所述翻譯文檔的頁碼,將所述雙語對照文檔中的所述翻譯文檔進行補全,以使所述翻譯文檔的若干頁面的內(nèi)容與所述待翻譯文檔中的每一頁面的內(nèi)容相對應:
所述文檔合并組件用于將每一頁面的所述待翻譯文檔和與每一頁面的所述待翻譯文檔相對應的若干頁面的所述翻譯文檔進行合并,獲得合并文檔;
所述文檔內(nèi)容抽取模塊采用以下公式自動識別并提取轉(zhuǎn)換為XML格式的所述待翻譯文檔中的內(nèi)容,以獲取提取內(nèi)容:
其中,Z為所述提取內(nèi)容,g為提取函數(shù),tagt為第t個標簽的標簽表示,vq為第q個節(jié)點的節(jié)點表示,Ctq為第q個節(jié)點第t個標簽的所述待翻譯文檔內(nèi)容,vroot為根節(jié)點表示,Croot為根節(jié)點對應所述待翻譯文檔內(nèi)容,q為所述待翻譯文檔內(nèi)容的節(jié)點變量,初始值為1,以1為單位遞增,最大為r,r為所述待翻譯文檔內(nèi)容的節(jié)點總數(shù),t為所述待翻譯文檔內(nèi)容的標簽變量,初始值為1,以1為單位遞增,最大為s,s為所述待翻譯文檔內(nèi)容的標簽總數(shù)。
2.如權利要求1所述的文檔翻譯系統(tǒng),其特征在于,所述文檔格式轉(zhuǎn)換模塊包括:
文檔格式轉(zhuǎn)化組件,用于將所述待翻譯文檔的非PDF格式轉(zhuǎn)化為PDF格式;
內(nèi)容抽取組件,用于分別抽取所述待翻譯文檔中的文本、圖像、表格中的內(nèi)容;
XML格式轉(zhuǎn)化組件,用于分別將抽取的所述待翻譯文檔中的文本、圖像、表格中的內(nèi)容轉(zhuǎn)化為XML格式文檔。
3.如權利要求1所述的文檔翻譯系統(tǒng),其特征在于,所述文檔內(nèi)容抽取模塊包括基于坐標行的分析組件、基于坐標段落的分析組件、基于語義段落的分析組件或基于經(jīng)驗段落的分析組件,其中,
所述基于坐標行的分析組件用于根據(jù)坐標行訓練模型,分別提取轉(zhuǎn)換為XML格式的所述待翻譯文檔中的每一行的內(nèi)容;
所述基于坐標段落的分析組件用于根據(jù)坐標段落訓練模型,分別提取轉(zhuǎn)換為XML格式的所述待翻譯文檔中的每一段落的內(nèi)容;
所述基于語義段落的分析組件用于根據(jù)語義段落訓練模型,分別對轉(zhuǎn)換為XML格式的所述待翻譯文檔中的每一段落的內(nèi)容進行語義分析;
所述基于經(jīng)驗段落的分析組件用于根據(jù)經(jīng)驗段落訓練模型,分別對轉(zhuǎn)換為XML格式的所述待翻譯文檔中的每一段落的內(nèi)容進行語義分析。
4.如權利要求1所述的文檔翻譯系統(tǒng),其特征在于,所述文檔翻譯模塊包括文本分類器、統(tǒng)一翻譯模塊或規(guī)范語義識別翻譯模塊,其中,
所述文本分類器用于根據(jù)所述提取內(nèi)容,將所述待翻譯文檔按照行業(yè)進行分類;
所述統(tǒng)一翻譯模塊用于根據(jù)所述文本分類器的分類,選擇針對不同行業(yè)的翻譯模型,對所述待翻譯文檔進行翻譯,獲得中間翻譯結果;
所述規(guī)范語義識別翻譯模塊用于根據(jù)規(guī)范語義識別模型,對所述中間翻譯結果的語義進行規(guī)范化處理,以獲得所述翻譯文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于六維聯(lián)合信息科技(北京)有限公司,未經(jīng)六維聯(lián)合信息科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910913794.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于遷移學習的蒙漢互譯方法
- 下一篇:一種磁條卡讀卡器差分解碼方法





