[發明專利]一種基于Transformer模型的老漢雙語對齊方法在審
| 申請號: | 201910215271.1 | 申請日: | 2019-03-21 |
| 公開(公告)號: | CN110083826A | 公開(公告)日: | 2019-08-02 |
| 發明(設計)人: | 周蘭江;賈善崇;張建安 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對齊 語料 語句 雙語語料庫 老撾語 分詞 自然語言 平行 機器學習技術 語言信息處理 自然語言處理 輸出結果 輸出序列 輸入序列 語言資源 編碼器 研究 句子 排序 抽取 詞語 取出 關聯 輸出 中文 保留 學習 | ||
本發明公開了一種基于Transformer模型的老漢雙語對齊方法,屬于自然語言處理和機器學習技術領域。雙語語料庫最為作為自然語言研究領域的重要語言資源,語言信息處理的研究深入,在語料的獲取,處理有了長足的進步。本發明首先將篇章級對齊的語料作為輸入,由于老撾語與中文的句子排序大致是一致的,所以可以先將篇章級的語料處理為單個的對齊語句,之后將對齊的語句進行拆分。之后將這些對齊的語句進行分詞,將分詞的詞語作為Encoder的輸入,通過保留Encoder編碼器對輸入序列的中間輸出結果,訓練一個模型來對這些輸入進行選擇性地學習并且在模型輸出時將輸出序列進行關聯,從而從雙語語料庫中抽取出平行句對。本發明在老撾語平行句對抽取上有一定的研究意義。
技術領域
本發明涉及一種基于Transformer模型的老漢雙語對齊方法,屬于自然語言處理和機器學習技術領域。
背景技術
雙語語料是統計機器翻譯、跨語言檢索、雙語詞典構建等研究領域的重要基礎資源,雙語語料的數量與質量很大程度上影響甚至決定了相關任務的最終結果。而平行句對的挖掘則是構建雙語語料的關鍵技術,因而具有重要的研究價值。很多情況下,雙語語料我們可以獲得,但是得到的文本通常并不是以句子為單位對齊的,例如有些是以段落或者按照整篇文章來對齊的。這種情況下,就需要將這些不是以句子為單位對齊的語料整理成句子對齊格式,從而進行平行句對的抽取。
發明內容
本發明要解決的技術問題是提供一種基于Transformer模型的老漢雙語對齊方法,用于解決從漢語-老撾語的對齊語料中抽取對齊語句,能夠有效提高句子對齊的準確率.
本發明采用的技術方案是:一種基于Transformer模型的老漢雙語對齊方法,具體步驟如下:
Step1,將漢-老雙語語料預處理后進行數據集劃分,其中,已對齊的訓練集占90%,亂序測試集占10%;
Step2,根據訓練集以及測試集的句子,經過分詞,統計其中的互異的詞組,以及每個詞組出現的次數,并按照出現次數的多少,從大到小排序;
Step3,將分好詞的源語言句子進行詞嵌入Embedding的單詞轉換詞向量,轉換詞向量之后進入到positional-encoding部分,對輸入的單詞的詞嵌入加上一個新的向量,即位置向量,來表示單詞的位置信息;
Step4,將經過位置信息標識的向量輸入multi-headed attention部分,其中包括多個Encoder,每個Encoder中在self-Attention中,詞向量通過與訓練的權值矩陣相乘,得到Q/K/V矩陣,即Qurey/Key/Value矩陣,同時,為每個Encoder獨立維護一套Q/K/V權值矩陣,為Decoder使用;
Step5,通過Encoder的multi-headed attention部分,我們將得到的多個Q/K/V矩陣,把這些矩陣組合形成一個最終的Z矩陣,其中包含了所有的Q/K/V權值,在Decoder部分,在Z的矩陣中找到相關K/V的權值帶入Decoder的“Encoder-Decoder attention”層中計算,通過Encoder部分的位置表示信息,最終得出一個向量的集合,通過最終的線性層linear和softmax層,通過概率選取最高的索引,然后找到一一對應的單詞作為輸出,最終得出譯文。
具體地,所述step1中所述的對齊片段為雙語對齊語句。
具體地,所述step2所述的分詞是指通過python編碼,通過電子老撾語字典,對最初老撾語句子分詞,使用jieba庫,對中文進行分詞。
具體地,所述step3中,詞嵌入是指將老撾語以及中文通過編碼,將文字信息轉化為計算機能夠識別的數字信息,同時能夠對詞語空間降維。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910215271.1/2.html,轉載請聲明來源鉆瓜專利網。





