[發明專利]一種實體字符的智能對齊方法、裝置、設備及介質在審
| 申請號: | 202210814664.6 | 申請日: | 2022-07-11 |
| 公開(公告)號: | CN115034195A | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 何哲宇;朱昱錦;徐亮 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F40/189 | 分類號: | G06F40/189;G06F40/211;G06F40/295 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 字符 智能 對齊 方法 裝置 設備 介質 | ||
本發明涉及智能決策領域,揭露一種實體字符的智能對齊方法、裝置、設備及介質,所述方法包括:標注待翻譯的語句文本的命名實體;利用訓練好的神經翻譯模型分別對語句文本和命名實體進行跨語種翻譯,得到譯文文本和譯文實體,將譯文文本與譯文實體進行匹配;若譯文文本與譯文實體匹配成功,獲取譯文實體在譯文文本中的第一位置序列,根據第一位置序列,標注命名實體在譯文文本中的最終位置序列;若譯文文本與譯文實體匹配失敗,對譯文實體中的實體字符進行分割,得到分割實體字符,根據分割實體字符,確定譯文實體在譯文文本中的第二位置序列,根據第二位置序列,標注命名實體在譯文文本中的最終位置序列。本發明可以提高實體字符對齊的準確性。
技術領域
本發明涉及智能決策領域,尤其涉及一種實體字符的智能對齊方法、裝置、電子設備以及計算機可讀存儲介質。
背景技術
對齊技術,是一種主要用于雙語平行語料構建時的技術,其思想即是在雙語文本中找到互為翻譯的原文和譯文片段,計算出原文的對齊粒度從粗到細,包括篇章,段落,句子,單詞乃至是字符,而粒度越小往往對齊難度越大,在文本中不同的語言有著不同的語法規則,即便出于相近語系語族,在翻譯過后表達方式往往會有較大的變化,字符對齊是指將待翻譯原文中的字符與譯文片段中的字符進行對齊的一個過程,字符對齊能夠提高后期翻譯的準確性,避免翻譯錯誤。
現有字符對齊往往是基于預先整理好的雙語詞表和子表,通過構建匹配矩陣,將雙語的字詞進行對齊,這種方式的不足在于需要依賴高質量的雙語詞字和子表,而部分字符可能雙語詞字和子表沒有記錄,進而會影響到字符對齊,降低了字符對齊的準確性。
發明內容
為了解決上述技術問題,本發明提供了一種實體字符的智能對齊方法、裝置、電子設備以及計算機可讀存儲介質,可以提高實體字符對齊的準確性。
第一方面,本發明提供了一種實體字符的智能對齊方法,包括:
獲取待翻譯的語句文本,標注所述語句文本中的命名實體;
利用訓練好的神經翻譯模型分別對所述語句文本和所述命名實體進行跨語種翻譯,得到譯文文本和譯文實體,并利用預設的匹配算法將所述譯文文本與所述譯文實體進行匹配;
若所述譯文文本與所述譯文實體匹配成功,則獲取所述譯文實體在所述譯文文本中的第一位置序列,根據所述第一位置序列,標注所述命名實體在所述譯文文本中的最終位置序列;
若所述譯文文本與所述譯文實體匹配失敗,對所述譯文實體中的實體字符進行分割,得到分割實體字符,并根據所述分割實體字符,確定所述譯文實體在所述譯文文本中的第二位置序列,根據所述第二位置序列,標注所述命名實體在所述譯文文本中的最終位置序列。
在第一方面的一種可能實現方式中,所述標注所述語句文本中的命名實體,包括:
對所述語句文本進行實體提取,得到實體文本,對所述實體文本進行實體篩選,得到篩選實體;
并對所述篩選實體進行標注,得到命名實體。
在第一方面的一種可能實現方式中,所述利用訓練好的神經翻譯模型分別對所述語句文本和所述命名實體進行跨語種翻譯之前,包括:
獲取訓練樣本及其對應的真實翻譯結果,利用預構建的神經翻譯模型中的編碼層對所述訓練樣本進行向量位置編碼,得到編碼位置向量;
利用預構建的神經翻譯模型中的編碼器對所述編碼位置向量進行特征編碼,得到特征編碼向量;
利用預構建的神經翻譯模型中的解碼器對所述特征編碼向量進行解碼,得到解碼特征向量;
根據所述解碼特征向量,利用所述預構建的神經翻譯模型中的激活函數輸出所述訓練樣本的預測翻譯結果,利用所述預構建的神經翻譯模型中的損失函數計算所述預測翻譯結果和所述真實翻譯結果的損失值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210814664.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種預防和治療雜交蘭莖腐病的方法
- 下一篇:一種電機轉子穩定性檢測裝置





