[發明專利]翻譯模型的質量信息獲取方法、裝置及計算機設備有效
| 申請號: | 202010172987.0 | 申請日: | 2020-03-13 |
| 公開(公告)號: | CN111046679B | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 王星;何世林;涂兆鵬;史樹明 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/51 | 分類號: | G06F40/51;G06F40/58 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 模型 質量 信息 獲取 方法 裝置 計算機 設備 | ||
1.一種翻譯模型的質量信息獲取方法,其特征在于,所述方法包括:
將至少一個語料對中的至少一個樣本語料輸入至基于神經網絡的翻譯模型,通過所述翻譯模型對所述至少一個樣本語料進行機器翻譯,得到至少一個預測譯文,其中,一個語料對包括一個樣本語料以及作為所述樣本語料的翻譯結果的參考語料;
對任一樣本語料所包含的任一短語,響應于與所述樣本語料的短語所對應的預測譯文的短語與參考語料的短語不一致,將所述預測譯文的短語中與所述參考語料的短語中不一致的字符替換為掩碼,刪除包含掩碼的短語所構成的短語對;
響應于與所述樣本語料的短語所對應的預測譯文的短語與參考語料的短語相一致,將所述樣本語料的短語和所述預測譯文的短語抽取為一個短語對;重復執行抽取短語對的操作,將得到的至少一個短語對確定為所述翻譯模型的學習結果信息,所述學習結果信息用于表示所述翻譯模型已學習到的多個語種短語之間的映射關系;
基于所述學習結果信息,生成所述翻譯模型的質量信息。
2.根據權利要求1所述的方法,其特征在于,所述響應于與所述樣本語料的短語所對應的預測譯文的短語與參考語料的短語相一致,將所述樣本語料的短語和所述預測譯文的短語抽取為一個短語對之前,所述方法還包括:
獲取所述樣本語料分別與所述預測譯文以及所述參考語料之間的詞對齊信息,所述詞對齊信息是指將所述樣本語料中的字符對應翻譯至所述預測譯文或者所述參考語料中的字符;
基于所述詞對齊信息,確定所述樣本語料的短語分別與所述預測譯文的短語以及所述參考語料的短語之間的對應關系。
3.根據權利要求1所述的方法,其特征在于,所述將得到的至少一個短語對確定為所述翻譯模型的學習結果信息之前,所述方法還包括:
基于詞頻、正向翻譯概率或者反向翻譯概率中至少一項,對所述至少一個短語對進行數據篩選。
4.根據權利要求1所述的方法,其特征在于,所述基于所述學習結果信息,生成所述翻譯模型的質量信息包括:
獲取所述學習結果信息中所包含的映射關系數目、數據重構率或者翻譯質量中至少一項,所述數據重構率用于表示所述翻譯模型對樣本語料翻譯得到的預測譯文與參考語料相一致的比例,所述翻譯質量為基于所述學習結果信息的雙語評估研究值進行映射所得的數值;
基于所述映射關系數目、所述數據重構率或者所述翻譯質量中至少一項,生成所述翻譯模型的質量信息。
5.根據權利要求1所述的方法,其特征在于,所述質量信息為質量分數,所述基于所述學習結果信息,生成所述翻譯模型的質量信息之后,所述方法還包括:
響應于所述翻譯模型的質量分數小于分數閾值,對所述翻譯模型進行迭代訓練,直到得到質量分數大于或等于所述分數閾值的目標翻譯模型。
6.一種翻譯模型的質量信息獲取裝置,其特征在于,所述裝置包括:
翻譯模塊,用于將至少一個語料對中的至少一個樣本語料輸入至基于神經網絡的翻譯模型,通過所述翻譯模型對所述至少一個樣本語料進行機器翻譯,得到至少一個預測譯文,其中,一個語料對包括一個樣本語料以及作為所述樣本語料的翻譯結果的參考語料;
替換刪除模塊,用于對任一樣本語料所包含的任一短語,響應于與所述樣本語料的短語所對應的預測譯文的短語與參考語料的短語不一致,將所述預測譯文的短語中與所述參考語料的短語中不一致的字符替換為掩碼,刪除包含掩碼的短語所構成的短語對;
抽取模塊,用于響應于與所述樣本語料的短語所對應的預測譯文的短語與參考語料的短語相一致,將所述樣本語料的短語和所述預測譯文的短語抽取為一個短語對;重復執行抽取短語對的操作,將得到的至少一個短語對確定為所述翻譯模型的學習結果信息,所述學習結果信息用于表示所述翻譯模型已學習到的多個語種短語之間的映射關系;
生成模塊,用于基于所述學習結果信息,生成所述翻譯模型的質量信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010172987.0/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





