[發明專利]基于語境迭代分析的漢譯英機器翻譯方法有效
| 申請號: | 201810282274.2 | 申請日: | 2018-04-02 |
| 公開(公告)號: | CN108491399B | 公開(公告)日: | 2021-08-06 |
| 發明(設計)人: | 王路 | 申請(專利權)人: | 上海杓衡信息科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/205;G06F40/253;G06F40/289 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 孫國棟 |
| 地址: | 200439 上海市寶山*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語境 分析 漢譯英 機器翻譯 方法 | ||
本發明涉及基于語境迭代分析的漢譯英機器翻譯方法,包括:(1)判斷是否有關鍵詞庫、專業術語庫、漢語常見關聯詞句式庫、漢語常見片語庫、帶有語境信息的單詞庫、統計機器翻譯模型,若缺少任一個庫或模型,進入步驟(2),反之,進入步驟(3);(2)構建1個關鍵詞庫、1個專業術語庫、1個漢語常見關聯詞句式庫、1個漢語常見片語庫、1個帶有語境信息的單詞庫和1個統計機器翻譯模型;(3)接收待翻譯的論文的中文摘要,并對其進行語境迭代翻譯;(4)規整英文摘要;(5)輸出英文摘要。本發明公開的基于語境迭代分析的漢譯英機器翻譯方法具有翻譯領域廣、準確率高等優點。
技術領域
本發明屬于人工智能機器翻譯領域,涉及一種漢譯英的機器翻譯方法,特別涉及基于語境迭代分析的漢譯英機器翻譯方法。
背景技術
機器翻譯是利用計算機技術將人類的某種自然語言轉換為另一種自然語言的過程。它是人工智能和自然語言處理領域的重要研究方向之一。不僅具有重要的科學研究價值,同時也具有重要的實用價值。隨著經濟全球化及互聯網的飛速發展,機器翻譯技術在促進政治、經濟、文化交流等方面起到越來越重要的作用。
目前,技術成熟且使用最為流行的機器翻譯技術是基于統計的機器翻譯方法。雖然,當前最前沿的基于神經網絡的機器翻譯方法異軍突起,但是由于構建翻譯神經網絡對硬件要求過高,因此對于提供機器翻譯服務的中小微企業而言,使用基于統計的機器翻譯方法仍然是一個現實的選擇。統計機器翻譯方法的工作方式是使用非常龐大的平行語料庫以及短語語料庫訓練翻譯模型。當翻譯漢語句子時,基于統計的機器翻譯系統首先把漢語句子分解成若干短語,然后翻譯模型根據訓練的“漢語—英語”短語對的共現概率,選擇出對應的英文短語,這樣就把漢語逐步翻譯成英語。
這種基于短語共現概率的統計機器翻譯方法有個主要缺陷:在選擇英文短語時只考慮了“漢語—英語”短語對的共現概率,沒有考慮漢語出現的語境信息,即只選擇共現概率最大的英語短語,但被選的英語短語在這個語境中出現是否合適或者是否正確則沒有考量。
語境是語用交際系統中的三大要素之一,它是與具體的語用行為密切聯系的、同語用過程相始終的、對語用活動有重要影響的條件和背景;它是諸多因素構成的、相對獨立的客觀存在,又同語用主體和話語實體互相滲透;它既是確定的,又是動態的,以語境場的方式在語用活動中發揮作用。
通過語境的定義可以發現,語境對語言的使用至關重要。在翻譯過程中如果不考慮語境因素,是無法保證翻譯質量的。
雖然有的統計機器翻譯實現了依據相鄰短語的語境信息來選擇英語短語的方法,但對于依據更外層的語境,比如句子成分、句子、句間、篇章等這種長距離語境,來選擇英語短語,則仍然沒有實現。
以漢語常見的搭配結構“一方面…另一方面…”構成的句間語境舉例。如果沒有這種句間語境分析,現有的統計機器翻譯只會關注到“一方面”或“另一方面”,最多也只能關注與它們兩個各自相鄰的短語,而不會發現“一方面”和“另一方面”之間具有邏輯上的關聯。這樣,它在翻譯“一方面”時,就有可能忽略或直接翻譯成“in one way”。但是如果利用句間語境分析,就會發現這種邏輯上的關聯,并在翻譯時加以利用。那么“一方面…另一方面…”就有可能會很翻譯成“on the one hand…,but on the other…”。
再以篇章構成的語境舉例。假設一個漢語名詞“架構”出現在一篇科技論文摘要中,如果沒有篇章語境分析,那么對“架構”的翻譯就完全依賴于統計翻譯模型在訓練時使用的語料。一般情況下,現有的統計機器翻譯模型的訓練語料絕大部分屬于時政新聞類型,那么對“架構”的翻譯也就來自于時政新聞的語境。比如像“股權架構”就非常容易出現在新聞中,那么“架構”就很有可能就依據這種語境來翻譯了。如果這篇論文摘要來自于“計算機科學領域”,那么翻譯時就有可能造成偏差。但是如果有篇章語境分析,就可以確定這篇摘要屬于哪個學科領域。依據學科領域,對“架構”進行翻譯就會相對準確一些。比如在“計算機科學技術”領域,可能會翻譯成“framework”或“architecture”;在“管理科學”領域,則有可能會翻譯成“structure”。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海杓衡信息科技有限公司,未經上海杓衡信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810282274.2/2.html,轉載請聲明來源鉆瓜專利網。





