[發明專利]一種基于領域分類的反向翻譯數據構建及訓練方法在審
| 申請號: | 202310386735.1 | 申請日: | 2023-04-12 |
| 公開(公告)號: | CN116306703A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 史曉東;宋佳欣;陳毅東 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06N3/08;G06F16/35;G06F18/22;G06F18/214;G06F40/216;G06N3/0464;G06N3/0499 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 領域 分類 反向 翻譯 數據 構建 訓練 方法 | ||
1.一種基于領域分類的反向翻譯數據構建及訓練方法,其特征在于包括以下步驟:
1)基于原語料訓練雙語模型:使用Transformer神經網絡模型,將雙語原語料分別作為源端-目標端和目標端-源端訓練兩個神經機器翻譯模型,
2)基于關鍵詞和主題相似性構建領域單語數據集;
3)基于反向翻譯生成領域偽平行數據集:將步驟2)獲取的領域單語數據集作為源端數據集,使用步驟1)中訓練好的雙語模型進行反向翻譯獲得偽句子對,整理對齊后形成領域偽平行數據集;
4)基于領域分類學習的聯合訓練:將步驟3)所得偽平行數據集標記為領域語料與通用數據進行聯合訓練。
2.如權利要求1所述一種基于領域分類的反向翻譯數據構建及訓練方法,其特征在于在步驟1)中,所述基于原語料訓練雙語模型的具體步驟為:
語言模型基于開源Transformer的神經網絡模型,該模型基于self-attention的編碼器-解碼器模型,由輸入、編碼、解碼、輸出四個模塊組成;輸入模塊將訓練文件中讀出的輸入的文本序列Input={s1,s2,s3,…,st},st代表第i個單詞,獲得初始化詞嵌入并與位置編碼連接后得到輸入向量Input?Embedding={x1,x2,…,xt},送入編碼器;編碼器每一層由多頭注意力機制,前饋神經網絡組成,規范化層,殘差連接組成,其中核心模型為多頭注意力機制由注意力機制演化而來,表達式為:
在編碼器得到輸入的抽象特征表示后,將其輸入到解碼器中進行解碼;解碼器與編碼器結構基本一致,反過來執行將目標嵌入、編碼器狀態、解碼器狀態聯系起來進行解碼;解碼結果經過一個線性層和softmax層輸出為標簽整體的概率分布;對于機器翻譯雙語模型而言,常用的訓練損失函數為交叉熵損失;基于該模型的使用,將整理好的高質量的原始雙語數據集S進行對齊、分詞、BPE、統計詞表、訓練集分割等預處理后,分布訓練一個單向模型;基于構造的雙語模型,用原始語料進行訓練,得到兩個雙語模型。
3.如權利要求1所述一種基于領域分類的反向翻譯數據構建及訓練方法,其特征在于在步驟2)中,所述基于關鍵詞和主題相似性構建領域單語數據集的具體步驟為:
尋找領域相關的篇章中即通過文檔主題相似性擴展數據集,以避免逐句選擇的低效性;對任意一個領域,領域內頻繁出現的關鍵詞可以代表這個領域的主題,但需要排除掉一些代詞,人名等無意義詞匯,可以通過程序自動獲取的方式構建,具體構建方法:
(1)構建一個基本詞庫,使用python工具包對現有領域數據集進行詞頻統計,獲取前500個常用詞匯中后人工篩選出一個詞庫,過濾掉一些常用詞匯,得到一個大小為256的基本詞庫作為領域主題代表D=[d1,d2,…,dn],di表示第i個單詞;
(2)提取文檔的主題,它和上述過程相似,也可以通過詞頻統計的方式獲取;對文檔庫中任意一篇文章P=[p1,p2,p3…,pn],pi代表第i個句子;執行內容選擇,提取文檔的重要句子,提供兩種提取方式的混合,一是基于主要結構的提取,通常來說,一篇文檔的重要部分主要集中在標題、首段和尾端,按照慣例提取這些部分;二是選擇包含某些信息性關鍵詞的句子進行提取;通過兩種方式的提取構成子集P1并滿足提取總數約束,通用將這些句子進行詞頻統計過濾獲得文章關鍵詞代表集合Ds=[dp1,dp2,…,dpn];通過這樣的方式,主題相似性可以轉化為兩個代表主題的關鍵詞集合的相似性,可以通過向量表示的方式來計算二者的相似性;
(3)將使用BERT詞向量將D和Ds轉化為向量表示,將所有詞向量求和獲得主題向量表示和
使用皮爾森相關系數來表示兩者的相似度,用于判斷文本主題與詞庫中詞語的相似度,計算公式為:
對整個文檔庫中所有文檔進行相似度計算,取文檔庫中10%的文檔作為領域相關數據候選集,基于正則表達式切分文檔并進行去重過濾后構建獲得新的領域單語數據集
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310386735.1/1.html,轉載請聲明來源鉆瓜專利網。





