[發明專利]語句翻譯方法、裝置、電子設備和存儲介質在審
| 申請號: | 202010622075.9 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111832322A | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 李響 | 申請(專利權)人: | 北京小米松果電子有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/284 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 魏云鹿 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語句 翻譯 方法 裝置 電子設備 存儲 介質 | ||
本公開涉及一種語句翻譯方法、裝置、電子設備和存儲介質,該方法包括:獲取待翻譯語句中的多個詞語,對待翻譯語句進行拆分處理,得到待翻譯語句中的多個字符,根據待翻譯語句中的多個詞語,確定待翻譯語句中的每個字符對應的關聯信息,將待翻譯語句中的每個字符和每個字符對應的關聯信息輸入翻譯模型,得到翻譯后的目標語句。本公開通過將待翻譯語句拆分為多個字符,能夠降低無明顯詞語邊界標志的源語言分詞錯誤或分詞不一致對翻譯質量的影響,同時減小了翻譯模型的源語言詞表以及翻譯模型所占用的存儲空間,并通過結合字符對應的關聯信息,降低了由于將待翻譯語句拆分成多個字符,導致字符丟失部分語義信息對翻譯質量的影響,保證了翻譯質量。
技術領域
本公開涉及神經機器翻譯技術領域,尤其涉及一種語句翻譯方法、裝置、電子設備和存儲介質。
背景技術
隨著計算機技術的迅速發展,對語句翻譯的準確度的要求也越來越高。為了提高語句翻譯的翻譯質量,在相關技術中,主要是通過預先對待翻譯語句進行分詞處理,并將分詞處理后得到的詞語輸入預先訓練的翻譯模型,得到翻譯后的語句。在對待翻譯語句進行分詞處理的過程中,若發生分詞錯誤或分詞不一致,會影響翻譯模型的翻譯質量。并且,在構建翻譯模型時,會首先根據訓練語料中的詞語來形成翻譯模型的源語言詞表,以便翻譯模型通過源語言詞表,對待翻譯語句進行翻譯,而由詞語形成的源語言詞表的數據量較大,這會導致翻譯模型的模型參數較多,使翻譯模型占用較大的存儲空間。
發明內容
為克服相關技術中存在的問題,本公開提供一種語句翻譯方法、裝置、電子設備和存儲介質。
根據本公開實施例的第一方面,提供一種語句翻譯方法,所述方法包括:
獲取待翻譯語句中的多個詞語;
對所述待翻譯語句進行拆分處理,得到所述待翻譯語句中的多個字符;
根據所述待翻譯語句中的多個詞語,確定所述待翻譯語句中的每個字符對應的關聯信息,所述關聯信息用于指示該字符與該字符所在的詞語之間的關聯關系;
將所述待翻譯語句中的每個字符、以及每個所述字符對應的關聯信息輸入預先訓練的翻譯模型,得到翻譯后的目標語句。
可選地,所述關聯信息包括字符標簽,所述字符標簽用于指示該字符在該字符所在的詞語中的位置,所述將所述待翻譯語句中的每個字符、以及每個所述字符對應的關聯信息輸入預先訓練的翻譯模型,得到翻譯后的目標語句包括:
針對所述待翻譯語句中的每個字符,獲取該字符的字符向量,以及該字符對應的字符標簽的標簽向量,將該字符的字符向量與該字符的標簽向量進行按位與操作,得到該字符對應的字符特征向量;
將得到的每個所述字符對應的字符特征向量作為所述翻譯模型的輸入,得到翻譯后的目標語句。
可選地,所述翻譯模型包括編碼器和解碼器,所述將得到的每個所述字符對應的字符特征向量作為所述翻譯模型的輸入,得到翻譯后的目標語句包括:
將每個所述字符對應的字符特征向量輸入所述編碼器,得到所述編碼器輸出的目標編碼向量;
將所述目標編碼向量輸入所述解碼器,得到所述解碼器輸出的所述目標語句。
可選地,所述編碼器為N個,所述解碼器為M個,N和M為均大于或等于2的正整數,所述將所述字符對應的字符特征向量輸入所述編碼器,得到所述編碼器輸出的目標編碼向量包括:
將第n-1個所述編碼器的輸出作為第n個所述編碼器的輸入,以得到第n個所述編碼器輸出的編碼向量,1n≤N,且n為正整數,第1個所述編碼器的輸入為所述字符對應的字符特征向量;
將第N個所述編碼器的輸出的所述編碼向量,作為所述目標編碼向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米松果電子有限公司,未經北京小米松果電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010622075.9/2.html,轉載請聲明來源鉆瓜專利網。





