[發明專利]文本翻譯方法及裝置有效
| 申請號: | 201711488585.6 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108228576B | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 黃宜鑫;孟廷;劉俊華;魏思;胡國平 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F16/35 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 苗青盛;馬英迪 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 翻譯 方法 裝置 | ||
1.一種文本翻譯方法,其特征在于,包括:
基于源文本的特征向量及每種聚類類別對應的聚類中心特征向量,確定所述源文本所屬的聚類類別;其中,每種聚類類別對應一個聚類中心特征向量,每種聚類類別及每種聚類類別對應的聚類中心特征向量是對訓練源文本的特征向量進行聚類后所確定的;
將所述源文本所屬的聚類類別進行向量化,得到所述源文本對應的聚類類別向量,將所述源文本中分詞的詞向量與所述源文本對應的聚類類別向量進行整合,將整合結果輸入至翻譯模型,輸出至少一個候選目標文本及每個候選目標文本對應的翻譯分值;
基于每個候選目標文本的翻譯分值,從所有候選目標文本中選取一個候選目標文本作為所述源文本的翻譯結果。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
對所述源文本中所有分詞的詞向量取平均值,得到所述源文本的特征向量。
3.根據權利要求1所述的方法,其特征在于,所述基于源文本的特征向量及每種聚類類別對應的聚類中心特征向量,確定所述源文本所屬的聚類類別,包括:
計算源文本對應的特征向量與每個聚類中心特征向量之間的距離,確定計算得到的所有距離中最小距離對應的聚類中心特征向量,并作為目標聚類中心特征向量;
將所述目標聚類中心特征向量對應的聚類類別作為所述源文本所屬的聚類類別。
4.根據權利要求1所述的方法,其特征在于,所述基于每個候選目標文本的翻譯分值,從所有候選目標文本中選取一個候選目標文本作為所述源文本的翻譯結果,包括:
將每個候選目標文本分別輸入至所述源文本所屬的聚類類別對應的領域語言模型,輸出每個候選目標文本的領域語言模型分值;
根據每個候選目標文本的翻譯分值及領域語言模型分值,從所有候選目標文本中選取一個候選目標文本作為所述源文本的翻譯結果。
5.根據權利要求4所述的方法,其特征在于,所述根據每個候選目標文本的翻譯分值及領域語言模型分值,從所有候選目標文本中選取一個候選目標文本作為所述源文本的翻譯結果,包括:
對每個候選目標文本的翻譯分值及領域語言模型分值進行加權求和,得到每個候選目標文本的綜合分值,從所有綜合分值中選取最大綜合分值對應的候選目標文本作為所述源文本的翻譯結果。
6.根據權利要求1所述的方法,其特征在于,所述將所述源文本中分詞的詞向量與所述源文本對應的聚類類別向量進行整合,包括:
在所述源文本中第一個分詞的詞向量之前添加所述源文本對應的聚類類別向量;或者,
將所述源文本對應的聚類類別向量分別與所述源文本中每一分詞的詞向量進行拼接;或者,
在所述源文本中第一個分詞的詞向量之前添加所述源文本對應的聚類類別向量,并將所述源文本對應的聚類類別向量分別與所述源文本中每一分詞的詞向量進行拼接。
7.根據權利要求1所述的方法,其特征在于,所述翻譯模型為編解碼模型,所述翻譯模型中的編碼模型采用雙向循環神經網絡結構,所述翻譯模型中的解碼模型采用循環神經網絡結構;相應地,所述將整合結果輸入至翻譯模型,輸出至少一個候選目標文本,包括:
將整合結果輸入至所述翻譯模型中,分別得到源文本中每一分詞在源文本所屬的聚類類別下的前向表征及反向表征;
將每一分詞在所述源文本所屬的聚類類別下的前向表征及反向表征進行拼接,得到每一分詞在所述源文本中的表征向量;
基于每一分詞在所述源文本中的表征向量對所述源文本進行解碼,得到至少一個候選目標文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711488585.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音翻譯交互方法及系統
- 下一篇:在線翻譯方法、裝置、設備及計算機可讀介質





