[發(fā)明專利]平行語料的挖掘方法、裝置、計算機設備及存儲介質有效
| 申請?zhí)枺?/td> | 202110930495.8 | 申請日: | 2021-08-13 |
| 公開(公告)號: | CN113836192B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設計)人: | 林余楚;黃輝 | 申請(專利權)人: | 深譯信息科技(橫琴)有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/35;G06F40/58;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 深圳眾鼎匯成知識產權代理有限公司 44566 | 代理人: | 朱業(yè)剛 |
| 地址: | 519031 廣東省珠海市橫琴新區(qū)環(huán)*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 平行 語料 挖掘 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種平行語料的挖掘方法,其特征在于,包括:
基于多語翻譯模型,分別對源句子與每個目標句子進行編碼,得到源句子對應的向量和每個目標句子對應的目標編碼向量,并將所述目標編碼向量映射到所述源句子對應的向量空間,其中,所述源句子為源語言對應的句子,所述目標句子為目標語言對應的句子;
針對每個所述目標句子,計算所述向量空間中所述目標句子對應的目標編碼向量與源句子對應的向量之間的相似度,得到所述目標句子對應的相似度分數;
基于Top-K算法,從所有目標句子中,選取K個相似度分數符合預設條件的目標句子,并分別將每個選取的目標句子與所述源句子組成候選句子對,其中,K為候選句子對的預設閾值;
對所述候選句子對對應的相似度分數進行正則化處理,并基于得到的正則化處理結果更新所述候選句子對對應的相似度分數;
基于預訓練語言模型,對所有所述候選句子對進行分類,得到所述候選句子對對應的分類概率,若所述分類概率大于預設閾值,則將所述候選句子對作為平行句子;
其中,所述基于Top-K算法,從所有目標句子中,選取K個相似度分數符合預設條件的目標句子,并分別將每個選取的目標句子與所述源句子組成候選句子對的步驟包括:
基于最小堆Top-K算法,從所有目標句子中,任意選取K個目標句子的相似度分數,建立最小堆,其中,所述最小堆包括堆頂,所述堆頂為K個目標句子中的最小相似度分數,未被選取的目標句子作為剩余目標句子;
選取所述剩余目標句子中任一個的相似度分數,作為對比相似度分數,并將所述對比相似度分數與所述堆頂的相似度分數進行比較;
若所述對比相似度分數不大于所述堆頂的相似度分數,則更新所述剩余目標句子;
若所述對比相似度分數大于所述堆頂的相似度分數,則將所述對比相似度分數,作為新的堆頂的相似度分數,并更新所述剩余目標句子;
當所述剩余目標句子未選取完畢,則返回選取所述剩余目標句子中任一個的相似度分數,作為對比相似度分數,并將所述對比相似度分數與所述堆頂的相似度分數進行比較的步驟繼續(xù)執(zhí)行;
當所述剩余目標句子選取完畢,則將所述最小堆所包含的所有相似度分數所對應的目標句子與所述源句子組成候選句子對。
2.根據權利要求1所述的方法,其特征在于,所述基于多語翻譯模型,分別對源句子與每個目標句子進行編碼,得到源句子對應的向量和每個目標句子對應的目標編碼向量,并將所述目標編碼向量映射到所述源句子對應的向量空間之前,所述方法還包括:
獲取訓練句子和目標語言嵌入表示,并將所述訓練句子和所述目標語言嵌入表示輸入到初始的多語翻譯模型,其中,所述目標語言嵌入表示是指目標語言的一種詞嵌入方式;
基于Transformer算法的編碼器,對所述訓練句子進行編碼處理,得到編碼向量;
基于預設的池化方式,對所述編碼向量進行池化處理,得到池化向量;
將所述編碼向量與所述池化向量進行連接處理,得到連接向量;
基于Transformer算法的解碼器,對所述連接向量與目標語言嵌入表示進行解碼,得到解碼向量;
對所述解碼向量進行損失計算,得到損失值;
若所述損失值超過預設損失值時,返回獲取訓練句子和目標語言嵌入表示,并將所述訓練句子和所述目標語言嵌入表示輸入到初始的多語翻譯模型的步驟繼續(xù)執(zhí)行;
若所述損失值不超過預設損失值時,得到所述多語翻譯模型。
3.根據權利要求2所述的方法,其特征在于,所述基于多語翻譯模型,分別對源句子與每個目標句子進行編碼,得到源句子對應的向量和每個目標句子對應的目標編碼向量,并將所述目標編碼向量映射到所述源句子對應的向量空間的步驟包括:
將所述源句子與多個目標句子輸入所述多語翻譯模型;
對所述源句子進行特征提取,得到所述源句子對應的第一向量;
對每個所述目標句子進行特征提取,得到每個所述目標句子對應的第二向量;
對所述第一向量與每個所述第二向量進行編碼,得到每個所述第二向量對應的目標編碼向量;
將所有所述目標編碼向量映射到所述源句子對應的向量空間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深譯信息科技(橫琴)有限公司,未經深譯信息科技(橫琴)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110930495.8/1.html,轉載請聲明來源鉆瓜專利網。





