[發明專利]平行語料的挖掘方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202110930495.8 | 申請日: | 2021-08-13 |
| 公開(公告)號: | CN113836192B | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 林余楚;黃輝 | 申請(專利權)人: | 深譯信息科技(橫琴)有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/35;G06F40/58;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 深圳眾鼎匯成知識產權代理有限公司 44566 | 代理人: | 朱業剛 |
| 地址: | 519031 廣東省珠海市橫琴新區環*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 語料 挖掘 方法 裝置 計算機 設備 存儲 介質 | ||
本發明公開了一種平行語料的挖掘方法,包括:基于多語翻譯模型,分別對源句子與每個目標句子進行編碼,得到源句子對應的向量和每個目標句子對應的目標編碼向量,并將目標編碼向量映射到向量空間;針對每個目標句子,計算目標句子對應的相似度分數;基于Top?K算法,從所有目標句子中,選取K個相似度分數符合預設條件的目標句子,并分別將每個選取的目標句子與源句子組成候選句子對;對候選句子對對應的相似度分數進行正則化處理,并基于得到的正則化處理結果更新候選句子對對應的相似度分數;基于預訓練語言模型,對所有候選句子對進行分類,得到候選句子對對應的分類概率,若分類概率大于預設閾值,則將候選句子對作為平行句子。
技術領域
本發明涉及神經機器翻譯技術領域,尤其涉及一種平行語料的挖掘方法、裝置、計算機設備及存儲介質。
背景技術
隨著深度學習技術的發展,基于編碼器-解碼器框架的神經機器翻譯已經成為新一代的機器翻譯技術,與其他機器翻譯方法對比下,神經機器翻譯模型在翻譯質量上有了極大的提升。
然而,訓練神經機器翻譯模型需要大量的平行語料,以達至比其他機器翻譯方法更好的翻譯表現。平行語料是指使用不同語言撰寫、相互間具有翻譯關系的文本。因此,在一些缺乏平行語料資源的語言對上,神經機器翻譯方法沒有足夠的資源進行模型訓練,導致其翻譯表現受到限制。
現時在互聯網上很容易就可以獲取到大量的弱對齊的雙語文章以及可比語料,因此,通過平行語料挖掘方法,對齊語料中的平行句子,從而收集大量的平行語料資源,是一種最直接及有效提升神經機器翻譯模型的翻譯表現的方法。
傳統平行語料挖掘方法都是基于語言學的特征以及雙語的詞典信息,例如句子長度,標點符號的數量、單詞對齊等。然而,這些特征需要由語言學專家進行定義及提取,往往涉及大量的專家領域知識,而且需要人工定義,系統并不能自動學習及抽取其特征,且在平行語料挖掘過程存在主觀性,從而導致平行語料挖掘的時候準確率的可信度較低。
目前平行語料挖掘方法包括了利用以多語言句子嵌入及基于余弦相似度的相似度測量方法,但對于同樣是平行句子的語言對中,它們的余弦相似度不統一,難以使用同一個閥值去獲取平行句子,使得平行語料挖掘系統的準確度及召回率較低。
因此,現有方式存在平行語料挖掘準確度較低的問題。
發明內容
本發明實施例提供一種平行語料的挖掘方法、裝置、計算機設備及存儲介質,以提高平行語料挖掘的準確率。
一種平行語料的挖掘方法,包括:
基于多語翻譯模型,分別對源句子與每個目標句子進行編碼,得到源句子對應的向量和每個目標句子對應的目標編碼向量,并將所述目標編碼向量映射到所述源句子對應的向量空間,其中,所述源句子為源語言對應的句子,所述目標句子為目標語言對應的句子;
針對每個所述目標句子,計算所述向量空間中所述目標句子對應的目標編碼向量與源句子對應的向量之間的相似度,得到所述目標句子對應的相似度分數;
基于Top-K算法,從所有目標句子中,選取K個相似度分數符合預設條件的目標句子,并分別將每個選取的目標句子與所述源句子組成候選句子對,其中,K為候選句子對的預設閾值;
對所述候選句子對對應的相似度分數進行正則化處理,并基于得到的正則化處理結果更新所述候選句子對對應的相似度分數;
基于預訓練語言模型,對所有所述候選句子對進行分類,得到所述候選句子對對應的分類概率,若所述分類概率大于預設閾值,則將所述候選句子對作為平行句子。
一種平行語料的挖掘裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深譯信息科技(橫琴)有限公司,未經深譯信息科技(橫琴)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110930495.8/2.html,轉載請聲明來源鉆瓜專利網。





