[發明專利]一種以泰語為樞軸的老-漢雙語語料庫構建方法及裝置有效
| 申請號: | 201910856645.8 | 申請日: | 2019-09-11 |
| 公開(公告)號: | CN110717341B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 毛存禮;高旭;余正濤;高盛祥;王振晗;聶男 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/289;G06F40/30;G06F16/33;G06F16/35 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 代轉嫚 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 泰語 樞軸 雙語 語料庫 構建 方法 裝置 | ||
本發明涉及以泰語為樞軸的老?漢雙語語料庫構建方法及裝置,屬自然語言處理領域。本發明先對漢語?泰語平行語料數據進行泰語分詞處理;構建老撾語?泰語雙語詞典,并利用其將泰語句子逐詞翻譯成老撾語句子序列,得到候選的老撾語?泰語平行句對;構建基于雙向LSTM的老撾語?泰語平行句對分類模型,對候選的老撾語?泰語平行句對進行分類,獲取老撾語?泰語雙語平行句對;以泰語為樞軸語言對老撾語和漢語進行匹配,構建老撾語?漢語雙語平行語料庫。并根據上述步驟功能模塊化制成以泰語為樞軸語言的老?漢雙語平行語料庫構建裝置,本發明解決了老撾語?漢語語料稀缺的問題,對老?漢雙語語料庫的構建具有一定的理論意義和實際應用價值。
技術領域
本發明涉及一種以泰語為樞軸的老-漢雙語語料庫構建方法及裝置,屬于自然語言處理技術領域。
背景技術
語料庫建設是自然語言處理研究工作的前提,老-漢雙語語料庫是開展漢-老機器翻譯及跨語言檢索的重要數據資源,而老撾語是東南亞語言中資源較為稀缺的語言,老-漢雙語平行資源較為稀缺,直接從互聯網上獲取老-漢雙語平行資源存在較大困難。
老撾語和泰語都屬于漢藏語系壯侗語族壯傣語支,基本詞匯幾乎相同或相似,句法結構上也有很大的相似性,而漢-泰平行語料又相對較容易獲取,所以可以利用老撾語和泰語的相似性,獲取老-泰平行句對,以泰語為樞軸的基礎上構建老-漢雙語平行語料。
發明內容
本發明提供了一種以泰語為樞軸的老-漢雙語語料庫構建方法及裝置,以用于構建老撾語-漢語雙語平行語料庫。
本發明的技術方案是:一種以泰語為樞軸的老-漢雙語語料庫構建方法,包括如下步驟:
Step1、從現有的漢語-泰語平行語料數據中抽取泰語句子并進行泰語分詞處理;
Step2、構建老撾語-泰語雙語詞典,并利用老撾語-泰語雙語詞典將泰語句子逐詞翻譯成老撾語句子序列,得到候選的老撾語-泰語平行句對;
Step3、構建基于雙向LSTM的老撾語-泰語平行句對分類模型,對候選的老撾語-泰語平行句對進行分類,把互譯的老撾語-泰語平行句子抽取出來,從而獲取老撾語-泰語雙語平行句對;
Step4、將獲取得到的老撾語-泰語雙語平行句對語料與已有的漢語-泰語平行語料以泰語為樞軸語言對老撾語和漢語進行匹配,構建老撾語-漢語雙語平行語料庫。
進一步地,所述步驟Step1的具體步驟為:
Step1.1、從已有的漢語-泰語雙語平行語料庫中選取20-50個字符的泰語句子;
Step1.2、對選取的泰語句子進行分詞處理,分詞工具使用昆明理工大學研發的東南亞小語種語言信息處理平臺,網址為http://222.197.219.24:8099/。
本發明考慮到泰語采取連書形式,沒有分詞,無法做基于詞的翻譯以及使用到模型中。因此,要通過泰語分詞工具進行分詞,得到分好詞的泰語句子。
此優選方案設計是本發明的重要組成部分,主要為本發明提供語料及數據預處理過程,為后續的詞典翻譯及模型使用提供語料基礎。
進一步地,所述步驟Step2的具體步驟:
Step2.1、老撾語-泰語雙語詞典的構建:主要是以英語作為中間語言,在老撾語-英語的詞典和泰語-英語詞典的基礎上,利用英語單詞來對齊老撾語和泰語單詞,以此構建老撾語-泰語雙語詞典;
Step2.2、由于老撾語-泰語極其相似,將已獲取的漢語-泰語雙語平行句對中的泰語句子利用老撾語-泰語雙語詞典進行逐詞翻譯,由于存在一詞多義的情況,在通過詞典翻譯時,就可能會生成多個語義不同的老撾語句子,從而得到候選的老撾語-泰語平行句對,其中候選的老撾語-泰語平行句對中,是一句泰語對應多句老撾語的多組句子,它不全是互譯的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910856645.8/2.html,轉載請聲明來源鉆瓜專利網。





