[發明專利]基于預訓練語言模型及雙向交互注意力的平行句對抽取方法在審
| 申請號: | 202111082587.1 | 申請日: | 2021-09-15 |
| 公開(公告)號: | CN113901831A | 公開(公告)日: | 2022-01-07 |
| 發明(設計)人: | 余正濤;張樂樂;郭軍軍 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 訓練 語言 模型 雙向 交互 注意力 平行 抽取 方法 | ||
本發明涉及預訓練語言模型及雙向交互注意力的平行句對抽取方法,屬于自然語言處理領域。本發明包括:構建中越可比語料數據集;使用預訓練語言模型分別獲得源語言和目標語言的雙語表征,然后基于雙向交互注意力機制實現跨語言特征的空間語義對齊;最后基于多視角特征融合后的語義表征實現跨語言句對的關系判定,根據深層語義一致性實現平行句對抽取。實驗結果表明,本發明所提方法在包含噪聲的數據背景下可以有效的識別語義一致的雙語平行句,提取出的雙語平行句為后續的機器翻譯提供了支撐。
技術領域
本發明涉及預訓練語言模型及雙向交互注意力的平行句對抽取方法,屬于自然語言處理領域。
背景技術
神經機器翻譯的性能依賴大量高質量的平行數據支撐,面向主流語言對(德-英,法-英)等,已有資源豐富的平行語料庫用于支撐學術研究,主流語言機器翻譯性能最近取得顯著的提高,并且已經接近了人工翻譯的效果。然而,對于大量的非主流語言對,由于其不具備大規模高質量的平行句對資源,因此嚴重制約了機器翻譯的性能。
平行句對抽取基于語義相似性實現兩種語言的匹配,任務的目的是從可比較的語料庫中找出平行句作為神經機器翻譯等自然語言處理任務的訓練數據,核心在于在跨語言空間中實現雙語語義空間的對齊從而判別語義一致性。傳統的語義空間對齊方法是使用不同神經網絡結構學習跨語言句子的向量表示,在共享向量空間中判斷句子之間的相似性。在解決存在大量噪聲的網絡資源數據時受限于訓練數據的數量和覆蓋領域難以生成好的語義表征進而影響語義對齊的效果。跨語言預訓練模型可以很好地實現公共語義空間上雙語語義的對齊。本發明使用預訓練語言模型作為先驗知識,對獲得的語義表征基于雙向交互注意力機制進行語義對齊。實現了從可比語料庫中提取深層語義一致的雙語平行句子擴充雙語平行語料庫,進而緩解了資源匱乏的語言對缺乏訓練數據的問題。
發明內容
本發明提供了基于預訓練語言模型及雙向交互注意力的平行句對抽取方法,用于從可比語料庫中提取深層語義一致的雙語平行句子擴充雙語平行語料庫,進而緩解了資源匱乏的語言對缺乏訓練數據的問題以及用于提升平行句對預測效果。
發明技術方案:基于預訓練語言模型及雙向交互注意力的平行句對抽取方法,所述方法的具體步驟如下:
Step1、通過網絡爬蟲技術收集并構建中越平行數據,利用負采樣獲得非平行數據,通過人工對數據集進行標注得到漢越可比語料數據集,漢越平行數據主要來源包括維基百科,雙語新聞網站,電影字幕等。
Step2、通過預訓練語言模型分別為源語言和目標語言進行編碼獲取語義表征;然后利用雙向交互注意力機制對獲取到的語義表征進行空間語義對齊,最后基于多視角特征融合后的語義表征實現跨語言句對的關系判定,基于雙語表征一致性,實現噪聲環境下平行句對的抽取。
作為本發明的進一步方案,所述步驟Step1的具體步驟為:
Step1.1、通過網絡爬蟲技術獲取中越平行數據;數據來源包括維基百科、雙語新聞網站,電影字幕等;
Step1.2、對爬取的數據進行清洗和對齊后,用作模型訓練的正樣本,為了保持樣本數量的平衡,通過負采樣為每個正樣本構造一個對應的負樣本,對于每對平行句,隨機抽樣生成負樣本,由正負樣本構成的可比語料庫用來訓練模型;
Step1.3、采用人工標注,獲得漢越可比語料數據集;最終數據由2n個三元組組成n為平行句和非平行句的數量;代表源語言句子,代表目標語言句子,yi是表示和之間翻譯關系的標簽,當源語言句與目標語言句為平行句時,標簽設置為1,當源語言與目標語言為非平行句時,標簽設置為0。
作為本發明的進一步方案,所述Step2中,通過預訓練語言模型分別為源語言和目標語言進行編碼獲取語義表征包括如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111082587.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:虛擬維度表構建方法及裝置
- 下一篇:一種兒科用呼吸道清潔排痰裝置





