[發明專利]一種以泰語為樞軸的老-漢雙語語料庫構建方法及裝置有效
| 申請號: | 201910856645.8 | 申請日: | 2019-09-11 |
| 公開(公告)號: | CN110717341B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 毛存禮;高旭;余正濤;高盛祥;王振晗;聶男 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/289;G06F40/30;G06F16/33;G06F16/35 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 代轉嫚 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 泰語 樞軸 雙語 語料庫 構建 方法 裝置 | ||
1.一種以泰語為樞軸的老-漢雙語語料庫構建方法,其特征在于:包括如下步驟:
Step1、從現有的漢語-泰語平行語料數據中抽取泰語句子并進行泰語分詞處理;
Step2、構建老撾語-泰語雙語詞典,并利用老撾語-泰語雙語詞典將泰語句子逐詞翻譯成老撾語句子序列,得到候選的老撾語-泰語平行句對;
Step3、構建基于雙向LSTM的老撾語-泰語平行句對分類模型,對候選的老撾語-泰語平行句對進行分類,把互譯的老撾語-泰語平行句子抽取出來,從而獲取老撾語-泰語雙語平行句對;
Step4、將獲取得到的老撾語-泰語雙語平行句對語料與已有的漢語-泰語平行語料以泰語為樞軸語言對老撾語和漢語進行匹配,構建老撾語-漢語雙語平行語料庫;
所述步驟Step2的具體步驟:
Step2.1、老撾語-泰語雙語詞典的構建:主要是以英語作為中間語言,在老撾語-英語的詞典和泰語-英語詞典的基礎上,利用英語單詞來對齊老撾語和泰語單詞,以此構建老撾語-泰語雙語詞典;
Step2.2、由于老撾語-泰語極其相似,將已獲取的漢語-泰語雙語平行句對中的泰語句子利用老撾語-泰語雙語詞典進行逐詞翻譯,由于存在一詞多義的情況,在通過詞典翻譯時,就可能會生成多個語義不同的老撾語句子,從而得到候選的老撾語-泰語平行句對,其中候選的老撾語-泰語平行句對中,是一句泰語對應多句老撾語的多組句子,它不全是互譯的;
所述步驟Step3的具體步驟:
Step3.1、人工構建基于句對齊的老撾語-泰語平行語料;
Step3.2、因為老撾語和泰語在詞語和讀音上具有極大的相似性,因此利用雙向LSTM將構建的老撾語-泰語平行句對在共享語義空間中進行表征,具體是使用雙向LSTM得到前后向的狀態向量,并做拼接得到共同語義空間中的句子向量表示,即:
其中,表示泰語第i個句子在N狀態的隱向量前向表示;是表示泰語第i個句子在N-1狀態的隱向量前向表示,是第i個句子中N狀態時泰語句子的詞向量表示,LSTM表示LSTM激活函數;
表示泰語第i個句子在N狀態的隱向量后向表示;是表示泰語第i個句子在N+1狀態的隱向量后向表示;
表示泰語第i個句子將兩個方向得到的最終向量拼接得到第i句的句子向量表示;
表示老撾語第i個句子在N狀態的隱向量前向表示;是表示老撾語第i個句子在N-1狀態的隱向量前向表示,是第i個句子中N狀態時老撾語句子的詞向量表示;
表示老撾語第i個句子在N狀態的隱向量后向表示;是表示老撾語第i個句子在N+1狀態的隱向量后向表示;
表示老撾語第i個句子將兩個方向得到的最終向量拼接得到第i句的句子向量表示;
然后利用向量點積和向量差捕獲兩個向量之間的匹配信息,得到匹配向量:
其中,其分別表示通過老撾語和泰語的句子向量點積和向量差值的計算得到的包含句子匹配信息的匹配向量;hi是包含匹配信息的最終向量表示,W1,W2,b是雙向LSTM模型的參數;
Step3.3、最后使用卷積神經網絡的全連接層,通過sigmoid函數計算老撾語和泰語句子是平行句子的概率判斷兩個句子之間是否是互譯的;
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的條件下兩個句子互譯的概率值,yi=1即表示兩個句子互譯,W3,c是卷積神經網絡模型參數,σ是激活函數;
Step3.4、使用如下交叉熵損失作為損失函數,多次迭代,更新雙向LSTM模型、卷積神經網絡模型的參數,訓練雙向LSTM模型、卷積神經網絡模型,即訓練老撾語-泰語平行句對分類模型,然后通過訓練好的老撾語-泰語平行句對分類模型,對候選的老撾語-泰語平行句對進行分類,把互譯的老撾語-泰語平行句子抽取出來,從而獲取老撾語-泰語雙語平行句對;
其中損失函數如下:
其中,yi=1或yi=0,yi=1表示兩個老撾語和泰語的句子是平行的,yi=0表示兩個老撾語和泰語的句子是不平行的,n代表訓練模型中正樣本即平行句子的數量,m代表訓練模型中負樣本即不平行的句子的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910856645.8/1.html,轉載請聲明來源鉆瓜專利網。





