[發明專利]基于統計的機器翻譯方法、裝置及電子設備在審
| 申請號: | 201510726342.6 | 申請日: | 2015-10-30 |
| 公開(公告)號: | CN106649282A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 黃瑞;駱衛華;林鋒;許星 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 北京市清華源律師事務所11441 | 代理人: | 沈泳,李贊堅 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 統計 機器翻譯 方法 裝置 電子設備 | ||
技術領域
本申請涉及機器翻譯技術領域,具體涉及一種基于統計的機器翻譯方法、裝置及電子設備。本申請同時涉及一種構建翻譯質量預測模型的方法和裝置。
背景技術
國際化電子商務是近年高速發展的一個新興市場,但語言障礙是制約電子商務發展國際化的一個因素,目前大多數多語種網站,都是在本土語言的基礎上,翻譯成其他多種語言版本,以達到快速搶占國際市場的目的。一個好的機器翻譯引擎,可以很大程度上降低多語言市場的成本,幫助多語言用戶解決語言障礙。
機器翻譯是將一種語言表達的文本翻譯成另外一種語言表達的文本,翻譯特征以及特征權重影響最終的翻譯結果。傳統的機器翻譯方法所依據的翻譯特征是指,候選譯文在語言方面的翻譯特征,例如,正向短語翻譯概率,反向短語翻譯概率,正向詞匯翻譯概率,反向詞匯翻譯概率,短語個數懲罰,詞語個數懲罰,調序模型概率和語言模型概率等。在計算獲取到語言方面的翻譯特征后,再通過預先生成的翻譯質量預測模型(主要包括各個翻譯特征的權重值),預測各個候選譯文的翻譯質量,從中選取出較高翻譯質量的候選譯文作為最終翻譯結果。可見,傳統機器翻譯方法的目標是提高翻譯結果在語言方面的準確性。
在實際應用中,一個待翻譯文本可以有很多種翻譯結果,單純從自然語言角度來看,這些翻譯結果都是正確的。但是,不同的翻譯結果在不同的場景下,可能會對用戶行為產生不同的影響。例如,在多語種的電子商務網站上,用戶輸入查詢詞“Hat”后,當系統在中文商品庫中檢索到帶有“帽子”的商品后,需要把每一個中文檢索結果均翻譯成英文,以供用戶查看;假設中文原文為“紅色帽子”,英文有兩種翻譯方式“Red Hat”和“Red Cap”,這兩種翻譯方式如果脫離場景從語言上看都是正確的,然而,當查詢詞為“Hat”時,電商場景下的用戶更傾向于點擊與查詢詞相同的翻譯結果“Red Hat”。由此可見,不同的翻譯結果在不同的場景下,可能會對用戶行為產生不同的影響,即:翻譯質量的評 估標準不僅包括語言方面的準確性,還包括與應用場景相關的業務目標。對上例而言,翻譯質量的評估標準還包括:翻譯結果是否能夠吸引用戶點擊或購買。
綜上所述,現有機器翻譯方法并未考慮到具體的應用場景。在特定應用場景下,使用現有機器翻譯方法產生的翻譯結果可能存在翻譯質量不足、無法滿足業務目標的問題,從而不利于用戶體驗。因此,現有技術存在無法根據應用場景評估候選譯文翻譯質量的問題。
發明內容
本申請提供一種基于統計的機器翻譯方法、裝置及電子設備,以解決現有存在無法根據應用場景評估候選譯文翻譯質量的問題。本申請另外提供一種構建翻譯質量預測模型的方法、裝置及電子設備。
本申請提供一種基于統計的機器翻譯方法,包括:
獲取待翻譯文本和業務信息;
對所述待翻譯文本進行解碼,生成所述待翻譯文本的多個候選譯文;
針對各個候選譯文,根據所述待翻譯文本和所述候選譯文,獲取語言方面的翻譯特征;以及根據所述業務信息,抽取業務方面的翻譯特征;并根據獲取的語言方面的翻譯特征和業務方面的翻譯特征,通過預先生成的翻譯質量預測模型,計算所述多個候選譯文的翻譯質量得分;
選取預設數量的所述翻譯質量得分排在高位的候選譯文,作為所述待翻譯文本的譯文。
可選的,所述業務信息包括應用場景信息、用戶靜態屬性信息和用戶歷史行為信息的至少一者;所述業務方面的翻譯特征包括應用場景特征、用戶靜態屬性特征和用戶歷史行為特征的至少一者。
可選的,所述基于統計的機器翻譯方法應用在搜索場景,所述翻譯質量得分對所述候選譯文作為搜索結果時的搜索點擊率產生影響;所述應用場景信息包括由目標語言表達的查詢詞;所述應用場景特征包括:所述候選譯文是否包括所述查詢詞、所述查詢詞在所述候選譯文中的位置、所述候選譯文是否包括未翻譯的詞和所述候選譯文包括的詞數量的至少一者;其中,所述目標語言是指所述候選譯文所屬的語言。
可選的,所述待翻譯文本,采用如下步驟獲取:
獲取用戶輸入的由所述目標語言表達的查詢詞;
將所述由所述目標語言表達的查詢詞翻譯為由源語言表達的查詢詞;所述源語言是指所述待翻譯文本所屬的語言;
根據所述由源語言表達的查詢詞,檢索獲取所述待翻譯文本。
可選的,通過機器學習算法,從已標注業務處理結果的歷史翻譯記錄集中學習出所述翻譯質量預測模型;所述歷史翻譯記錄包括原文、譯文和業務信息。
可選的,所述業務信息包括應用場景信息、用戶靜態屬性信息和用戶歷史行為信息的至少一者。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510726342.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:床邊凳(61080)
- 下一篇:椅子(MK?703)





