[發明專利]語句翻譯方法、裝置、電子設備和存儲介質在審

申請號：	202010622075.9	申請日：	2020-06-30
公開（公告）號：	CN111832322A	公開（公告）日：	2020-10-27
發明（設計）人：	李響	申請（專利權）人：	北京小米松果電子有限公司
主分類號：	G06F40/58	分類號：	G06F40/58;G06F40/284
代理公司：	北京英創嘉友知識產權代理事務所(普通合伙) 11447	代理人：	魏云鹿
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語句翻譯方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開涉及一種語句翻譯方法、裝置、電子設備和存儲介質，該方法包括：獲取待翻譯語句中的多個詞語，對待翻譯語句進行拆分處理，得到待翻譯語句中的多個字符，根據待翻譯語句中的多個詞語，確定待翻譯語句中的每個字符對應的關聯信息，將待翻譯語句中的每個字符和每個字符對應的關聯信息輸入翻譯模型，得到翻譯后的目標語句。本公開通過將待翻譯語句拆分為多個字符，能夠降低無明顯詞語邊界標志的源語言分詞錯誤或分詞不一致對翻譯質量的影響，同時減小了翻譯模型的源語言詞表以及翻譯模型所占用的存儲空間，并通過結合字符對應的關聯信息，降低了由于將待翻譯語句拆分成多個字符，導致字符丟失部分語義信息對翻譯質量的影響，保證了翻譯質量。

技術領域

本公開涉及神經機器翻譯技術領域，尤其涉及一種語句翻譯方法、裝置、電子設備和存儲介質。

背景技術

隨著計算機技術的迅速發展，對語句翻譯的準確度的要求也越來越高。為了提高語句翻譯的翻譯質量，在相關技術中，主要是通過預先對待翻譯語句進行分詞處理，并將分詞處理后得到的詞語輸入預先訓練的翻譯模型，得到翻譯后的語句。在對待翻譯語句進行分詞處理的過程中，若發生分詞錯誤或分詞不一致，會影響翻譯模型的翻譯質量。并且，在構建翻譯模型時，會首先根據訓練語料中的詞語來形成翻譯模型的源語言詞表，以便翻譯模型通過源語言詞表，對待翻譯語句進行翻譯，而由詞語形成的源語言詞表的數據量較大，這會導致翻譯模型的模型參數較多，使翻譯模型占用較大的存儲空間。

發明內容

為克服相關技術中存在的問題，本公開提供一種語句翻譯方法、裝置、電子設備和存儲介質。

根據本公開實施例的第一方面，提供一種語句翻譯方法，所述方法包括：

獲取待翻譯語句中的多個詞語；

對所述待翻譯語句進行拆分處理，得到所述待翻譯語句中的多個字符；

根據所述待翻譯語句中的多個詞語，確定所述待翻譯語句中的每個字符對應的關聯信息，所述關聯信息用于指示該字符與該字符所在的詞語之間的關聯關系；

將所述待翻譯語句中的每個字符、以及每個所述字符對應的關聯信息輸入預先訓練的翻譯模型，得到翻譯后的目標語句。

可選地，所述關聯信息包括字符標簽，所述字符標簽用于指示該字符在該字符所在的詞語中的位置，所述將所述待翻譯語句中的每個字符、以及每個所述字符對應的關聯信息輸入預先訓練的翻譯模型，得到翻譯后的目標語句包括：

針對所述待翻譯語句中的每個字符，獲取該字符的字符向量，以及該字符對應的字符標簽的標簽向量，將該字符的字符向量與該字符的標簽向量進行按位與操作，得到該字符對應的字符特征向量；

將得到的每個所述字符對應的字符特征向量作為所述翻譯模型的輸入，得到翻譯后的目標語句。

可選地，所述翻譯模型包括編碼器和解碼器，所述將得到的每個所述字符對應的字符特征向量作為所述翻譯模型的輸入，得到翻譯后的目標語句包括：

將每個所述字符對應的字符特征向量輸入所述編碼器，得到所述編碼器輸出的目標編碼向量；