[發明專利]一種針對機器翻譯的譯文評估方法及裝置有效
| 申請號: | 201811306229.2 | 申請日: | 2018-11-05 |
| 公開(公告)號: | CN109446537B | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 詹文法;邵志偉;陶鵬程;張振林;劉德陽 | 申請(專利權)人: | 安慶師范大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 合肥市浩智運專利代理事務所(普通合伙) 34124 | 代理人: | 丁瑞瑞 |
| 地址: | 246133 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 機器翻譯 譯文 評估 方法 裝置 | ||
1.一種針對機器翻譯的譯文評估方法,其特征在于,所述方法包括:
獲取語料庫中的若干條語料,并將每一條語料中包含的上下文詞向量的拼接結果;并對所述若干條語料中包含的不同詞性的詞語的詞向量進行初始化;
將所述拼接結果以及所述詞向量作為CBOW模型的輸入,獲取訓練后的CBOW模型;
獲取每一條語料的目標詞,并使用訓練后的CBOW模型進行翻譯;
獲取待評估模型針對所述目標詞的譯文,并根據所述待評估模型對應的譯文與訓練后的CBOW模型對應的譯文之間的相似度,評估待評估模型譯文的準確度。
2.根據權利要求1所述的一種針對機器翻譯的譯文評估方法,其特征在于,所述對所述若干條語料中包含的不同詞性的詞語的詞向量進行初始化,包括:
分別使用互不重合的取值范圍,對所述若干條語料中包含的不同詞性的詞語的詞向量進行初始化。
3.根據權利要求1所述的一種針對機器翻譯的譯文評估方法,其特征在于,在所述將所述拼接結果以及所述詞向量作為CBOW模型的輸入,獲取訓練后的CBOW模型之前,所述方法還包括:
將每一條語料中除設定的標點符號以外的標點符號去除,其中,設定的標點符號包括:用于表達語料的語氣的標點符號、語料結束的標點符號中的一種或組合。
4.根據權利要求1所述的一種針對機器翻譯的譯文評估方法,其特征在于,所述獲取每一條語料的目標詞,包括:
利用公式,獲取每一條語料的目標詞,其中,
P(w|c)為目標詞的概率;w為目標詞;c為目標詞的上下文;exp()為以自然底數為底的指數函數;x為CBOW模型的輸入層;∑為求和函數;v為語料庫;()T為轉置矩陣。
5.根據權利要求1所述的一種針對機器翻譯的譯文評估方法,其特征在于,所述語料為單獨的句子。
6.一種針對機器翻譯的譯文評估裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取語料庫中的若干條語料,并將每一條語料中包含的上下文詞向量的拼接結果;并對所述若干條語料中包含的不同詞性的詞語的詞向量進行初始化;
將所述拼接結果以及所述詞向量作為CBOW模型的輸入,獲取訓練后的CBOW模型;
獲取每一條語料的目標詞,并使用訓練后的CBOW模型進行翻譯;
獲取待評估模型針對所述目標詞的譯文,并根據所述待評估模型對應的譯文與訓練后的CBOW模型對應的譯文之間的相似度,評估待評估模型譯文的準確度。
7.根據權利要求6所述的一種針對機器翻譯的譯文評估裝置,其特征在于,所述獲取模塊,用于:
分別使用互不重合的取值范圍,對所述若干條語料中包含的不同詞性的詞語的詞向量進行初始化。
8.根據權利要求6所述的一種針對機器翻譯的譯文評估裝置,其特征在于,所述裝置還包括:去除模塊,用于將每一條語料中除設定的標點符號以外的標點符號去除,其中,設定的標點符號包括:用于表達語料的語氣的標點符號、語料結束的標點符號中的一種或組合。
9.根據權利要求6所述的一種針對機器翻譯的譯文評估裝置,其特征在于,所述獲取模塊,用于:
利用公式,獲取每一條語料的目標詞,其中,
P(w|c)為目標詞的概率;w為目標詞;c為目標詞的上下文;exp()為以自然底數為底的指數函數;x為CBOW模型的輸入層;∑為求和函數;v為語料庫;()T為轉置矩陣。
10.根據權利要求6所述的一種針對機器翻譯的譯文評估裝置,其特征在于,所述語料為單獨的句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安慶師范大學,未經安慶師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811306229.2/1.html,轉載請聲明來源鉆瓜專利網。





