[發明專利]驗證共有子詞對XLM翻譯模型效果影響的實驗方法有效
| 申請號: | 202110079357.3 | 申請日: | 2021-01-21 |
| 公開(公告)號: | CN112861516B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 余正濤;楊曉霞;吳霖;朱俊國;王振晗;文永華 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/226 | 分類號: | G06F40/226;G06F40/242;G06F40/284;G06F40/58 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 驗證 共有 xlm 翻譯 模型 效果 影響 實驗 方法 | ||
1.驗證共有子詞對XLM翻譯模型效果影響的實驗方法,其特征在于:所述方法包括:
Step1、對XLM翻譯模型預訓練的語料庫進行預處理;
Step2、驗證XLM翻譯模型性能是否退化:用預處理后的語料庫對XLM翻譯模型進行預訓練,用預訓練后的模型初始化翻譯模型,觀察新的翻譯模型的BLEU值;
其中Step1預處理包括如下:
首先獲取英語和法語子詞中的共有子詞及所有子詞詞頻;然后根據分離比例,隨機對共有子詞進行分離;隨后讀取所有英法子詞的詞表保存在詞典中,用于后續生成分離子詞文件;使用生成的分離子詞文件初始化詞典,最后使用初始化后的詞典來結構化模型語料庫文件;
所述方法的具體步驟如下:
Step1.1、獲取英語和法語子詞中的共有子詞及所有子詞詞頻;
Step1.2、根據分離比例,隨機對共有子詞進行分離,得到分離子詞文件;
首先,根據共有子詞總數和分離比例相乘計算出待分離共有子詞的數量,使用隨機函數對共有子詞進行篩選,得到了要分離的共有子詞和不分離的共有子詞,將它們分開保存;查找要分離的共有子詞分別在英法詞表中出現的詞頻,并將其保存;
Step1.3、讀取包含所有英法子詞的詞表并存在詞典中;所有英法子詞的詞表包含子詞以及詞頻;
Step1.4、生成分離子詞文件;
首先讀取含有所有英法子詞的詞表的詞典,根據讀取的數據判斷是否是共有子詞,如果是共有字詞,再對共有子詞進行是否分離的判斷;如果不是共有子詞,則不需進行是否分離的判斷;在對共有子詞進行是否分離的判斷時,如果共有子詞分離,則對英語法語中的詞頻進行標記,如果共有子詞不分離,則對英語法語中的詞頻記為總詞頻;最后將不同類型的子詞以不同標記保存在同一個文件中;
Step1.5、使用生成的分離子詞文件初始化詞典;
讀取Step1.4生成的文件,將是分離的共有子詞分別添加后綴來進行區分,并且分別用不同的id序號來表示;并將它們對應的詞頻也保存起來,對不是分離的共有子詞,直接記錄該子詞對應的id并記錄其詞頻,初始化詞典類中的各種類成員;
Step1.6、使用初始化后的詞典來結構化模型語料庫文件;
讀取BPE處理過的英法語料庫文件中的每行句子中的子詞,根據初始化后的詞典使用子詞的id序號替換對應子詞,然后在每行末尾加上結尾標識符,最后保存在數組中;與此同時,也要將句子標識符的首末位置也一起保存到二進制文件中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110079357.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高溫裂解污泥厭氧消化降溫預處理設備及工藝
- 下一篇:一種光學玻璃制造方法





