本發明公開了一種從老撾?漢語篇章級對齊語料中抽取對齊語句的方法,屬于自然語言處理和機器學習技術領域。本發明首先將篇章級對齊的語料使用python進行正則表達式的處理,去除掉噪音數據,并作為輸入,由于老撾語與中文的句子排序是一致的,所以可以先將篇章級的語料處理為單個的對齊語句,之后將對齊的語句進行拆分。之后將這些對齊的語句進行分詞,將分詞的此語作為LSTM的輸入,通過保留LSTM編碼器對輸入序列的中間輸出結果,訓練一個模型來對這些輸入進行選擇性地學習并且在模型輸出時將輸出序列進行關聯,從而從雙語語料庫中抽取出平行句對。本發明在老撾語平行句對抽取上有一定的研究意義。
技術領域
本發明涉及一種從老撾-漢語篇章級對齊語料中抽取對齊語句的方法,特別是一種基于LSTM(Long Short-Term Memory長短期記憶網絡)的從老撾-漢語篇章級對齊語料中抽取對齊語句的方法,屬于自然語言處理和機器學習技術領域。
背景技術
雙語語料是統計機器翻譯、跨語言檢索、雙語詞典構建等研究領域的重要基礎資源,雙語語料的數量與質量很大程度上影響甚至決定了相關任務的最終結果。而平行句對的挖掘則是構建雙語語料的關鍵技術,因而具有重要的研究價值。很多情況下,雙語語料我們可以獲得,但是得到的文本通常并不是以句子為單位對齊的,例如有些是以段落或者按照整篇文章來對齊的。這種情況下,就需要將這些不是以句子為單位對齊的語料整理成句子對齊格式,從而進行平行句對的抽取。
發明內容
本發明要解決的技術問題是:提供一種從老撾-漢語篇章級對齊語料中抽取對齊語句的方法,用于解決從漢語-老撾語的對齊語料中抽取對齊語句,能夠有效提高句子對齊的準確率。
本發明采用的技術方案是:一種從老撾-漢語篇章級對齊語料中抽取對齊語句的方法,包括如下步驟:
Step1,將漢-老雙語語料先通過python代碼使用正則表達式來進行噪聲處理,然后對這些對齊片段進行數據集劃分,其中,已對齊的訓練集占90%,亂序測試集占10%;
Step2,根據訓練集以及測試集的句子,統計其中的互異的詞組,以及每個詞組出現的次數,經過word-embedding計算句子的詞向量;
Step3,將Step2得出詞向量作為LSTM算法的輸入,即此時LSTM算法作為encoder部分,并將這些詞向量作為encoder端的輸入,encoder部分通過LSTM算法的初始化向量進行相似度計算;
Step4,每個詞向量經由encoder部分輸出,經過softmax函數,求出各個句子詞向量的語義編碼C,組成一個向量序列;
Step5,將Step4中得到的向量序列,作為decoder部分的初始輸入,在decoder部分加入了Attention機制,解碼的時候,每一步都會選擇性地從語義編碼C的向量序列中挑選一個子集進行進一步的處理;所以在decoder部分中,每個時刻的輸出作為下一時刻的輸入,每一個輸出,都能夠做到充分利用輸入序列攜帶的信息,以此類推,直到結尾;
Step6,經過encoder與decoder部分的相似度的計算,得出相似度最高的句子詞向量,通過詞向量來組成的句子,從而完成從對齊的篇章級語料中抽取出漢-老雙語對齊的語句。
具體地,所述Step1中所述的對齊片段為經過噪聲處理過后的對齊篇章語料。
具體地,所述Step2通過python編碼,對最初的篇章級對齊語料進行句子分詞,通過代碼實現單個句子老撾語句子以及中文句子的分詞,并統計詞數。
具體地,所述Step3的具體步驟如下: