[發明專利]基于Transformer模型的數據增強維漢機器翻譯系統訓練方法和裝置在審
| 申請號: | 202010226101.6 | 申請日: | 2020-03-27 |
| 公開(公告)號: | CN111444730A | 公開(公告)日: | 2020-07-24 |
| 發明(設計)人: | 艾山·吾買爾;西熱艾力·海熱拉;劉文其;盛嘉寶;早克熱·卡德爾;鄭炅;徐翠云;斯拉吉艾合麥提·如則麥麥提 | 申請(專利權)人: | 新疆大學 |
| 主分類號: | G06F40/44 | 分類號: | G06F40/44;G06F40/58 |
| 代理公司: | 北京匯捷知識產權代理事務所(普通合伙) 11531 | 代理人: | 張麗 |
| 地址: | 830046 新疆維吾爾*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 transformer 模型 數據 增強 機器翻譯 系統 訓練 方法 裝置 | ||
1.基于Transformer模型的數據增強維漢機器翻譯系統訓練裝置,Transformer模型由編碼器和解碼器兩個部分組成,其特征在于:模型的左半邊部分是編碼器端,由6個相同的層疊加組成,每一層由兩個子層組成。右半部分是解碼器端,同解碼器由6個相同的層疊加組成,每一層由三個子層組成。
2.根據權利要求1所述的基于Transformer模型的數據增強維漢機器翻譯系統訓練裝置,其特征在于:所述編碼器的第一個子層self-attention層,第二個子層是前饋神經網絡,每個單詞先經過self-attention層,對單詞進行編碼,獲取單詞的位置信息,單詞位置信息通過位置編碼器獲取,它從輸入向量上創建查詢和鍵值對向量,通過縮放點積注意力算法訓練該三個向量。
3.基于Transformer模型的數據增強維漢機器翻譯系統訓練方法,其特征在于:訓練方法包括以下步驟:
A、對語料進行預處理:
B、短語對齊、抽取和過濾,并抽取名詞短語;
C、生成偽平行句對。
4.根據權利要求3所述的基于Transformer模型的數據增強維漢機器翻譯系統訓練方法,其特征在于:所述步驟A中預處理包括對漢語的的預處理和維吾爾語的預處理,使用維吾爾語預處理工具和分詞工具,對維吾爾文進行擴建區-基本區編碼轉換和分詞,對中文語料進行全角-半角的轉化,并使用哈工大的中文分詞工具對漢語語料分詞。
5.根據權利要求3所述的基于Transformer模型的數據增強維漢機器翻譯系統訓練方法,其特征在于:所述步驟B中短語對齊、抽取使用統計機器翻譯工具moses進行短語對齊和短語對抽取,得到約一千萬條短語對;短語的過濾是通過簡單地規則對抽取的短語對進行過濾,定義的規則如下:
a、過濾包含標點符號的短語對;
b、過濾包含數字的短語對;
c、過濾中文短語包含非中文字符或者維吾爾語短語包含非維吾爾語字符的短語對;
d、過濾長度比例過大或過小的短語對;
e、過濾單個詞和非名詞短語,之后剩下的短語對有324萬條;
抽取名詞短語,使用哈工大的句法分析器對中文句子進行句法分析,抽取句子中的所有名詞短語;因缺少維吾爾語句法分析器,故采用短語對齊表找出中文名詞短語對應的維吾爾語名詞短語。
6.根據權利要求3所述的基于Transformer模型的數據增強維漢機器翻譯系統訓練方法,其特征在于:所述步驟C中包括:
a、訓練詞向量,用漢語和維吾爾語單語語料訓練詞向量模型,詞向量選用的是word2vec中的skip-gram模型;
b、計算短語相似度:首先在單詞向量基礎下計算短語向量,其次通過余弦相似度計算兩個短語的相似度,把短語中的每個單詞的向量相加再求平均,從而得到短語的向量;然后分別計算每個短語與短語表中的所有短語的相似度,計算短語相似度時使用的采用的是余弦相似度;計算短語向量和短語相似度公式如下:
其中p是短語向量,wi是第i個單詞的向量,pi和pj是需要計算相似度的兩個短語向量;
c、生成句子:把原始句對中的名詞短語用短語表中與它相似度最高的短語來替換,計算使用的是維吾爾語的短語相似度,在替換維吾爾語短語時,同時替換對應的漢語句子中的短語。
d、篩選偽平行語料,過濾掉不符合規則:使用SRILM在359萬條維吾爾語的單語數據和354萬漢語的單語數據分別訓練出維吾爾語和漢語的語言模型,通過訓練的語言模型計算每條新生成句子的困惑度,過濾掉新生成句子比原句子困惑度高5的句子,其中困惑度度量是一種評價語言模型質量良好的指標,困惑度是一種信息論的測度,用來測量一個概率模型預測樣本的好壞,困惑度越低越好,給定一個包含n個詞的文本語料w1,w2,…,wn和一個基于詞語歷史的用于為詞語分配概率的語言模型函數LM,LM在這個語料困惑度是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆大學,未經新疆大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010226101.6/1.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





