[發明專利]基于跨語言雙語預訓練及Bi-LSTM的漢-越平行句對抽取方法在審
| 申請號: | 202010990010.X | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112287695A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 高盛祥;劉暢;余正濤;毛存禮;黃于欣;王振晗 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/30;G06F40/284;G06F40/211;G06F16/35;G06F16/951;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語言 雙語 訓練 bi lstm 平行 抽取 方法 | ||
1.基于跨語言雙語預訓練及Bi-LSTM的漢-越平行句對抽取方法,其特征在于:
所述方法包括如下:
Step1、構建語料庫:構建漢越可比語料庫,爬取漢越單語,構建漢越種子詞典;
Step2、漢越跨語言詞向量預訓練:將漢越雙語進行詞向量表征,利用漢越種子詞典在同一語義空間詞對齊,進行跨語言雙語預訓練;
Step3、Bi-LSTM和CNN統一空間編碼:然后將預訓練后得到的漢語和越南語句子輸入到一個由Bi-LSTM和CNN組成的孿生神經網絡,分別提取到句子的全局特征和局部特征;
Step4、模型訓練與分類:將輸出的結果反饋到全連接層中,設置閾值來判斷輸入的漢越雙語句對是否是平行的。
2.根據權利要求1所述的基于跨語言雙語預訓練及Bi-LSTM的漢-越平行句對抽取方法,其特征在于:所述步驟Step1中,通過維基百科下載dump漢越數據,利用Scrapy作為爬取工具,爬取漢越新聞事件頁面,獲取漢越語料,再對得到的漢越數據進行預處理,建立漢越平行句對和非平行句對數據集。
3.根據權利要求1所述的基于跨語言雙語預訓練及Bi-LSTM的漢-越平行句對抽取方法,其特征在于:所述步驟Step2中,利用word2vec在漢語和越南語各自的單語語料庫上進行獨立訓練,再將漢語-越南語跨語言雙語詞嵌入映射到公共的語義空間進行預訓練,使得漢語-越南語的語義相似詞在該空間中接近,從而增強了漢語和越南語語義空間中的相關性,在跨語言雙語預訓練中,利用種子詞典在沒有大規模平行語料情況下可以實現在漢越同一語義空間詞對齊,并以自學習的方式迭代地生成新詞典。
4.根據權利要求1所述的基于跨語言雙語預訓練及Bi-LSTM的漢-越平行句對抽取方法,其特征在于:所述步驟Step3中,利用漢越種子詞典來學習詞嵌入并指導后面Bi-LSTM和CNN在公共語義空間進行統一編碼,再將訓練好的詞向量輸入Bi-LSTM來獲取單詞前后信息特征,然后使用CNN來提取雙語句子更深層語義特征。
5.根據權利要求1所述的基于跨語言雙語預訓練及Bi-LSTM的漢-越平行句對抽取方法,其特征在于:所述步驟Step4中,在對漢語句子和越南語句子進行編碼后,通過使用元素乘積和元素絕對差將它們提供給全連接層,將它們提供給全連接層以及使用輸出概率作為漢越句對是否為平行語句對的度量來捕獲其匹配信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010990010.X/1.html,轉載請聲明來源鉆瓜專利網。





