[發(fā)明專利]基于預訓練語言模型及雙向交互注意力的平行句對抽取方法在審
| 申請?zhí)枺?/td> | 202111082587.1 | 申請日: | 2021-09-15 |
| 公開(公告)號: | CN113901831A | 公開(公告)日: | 2022-01-07 |
| 發(fā)明(設計)人: | 余正濤;張樂樂;郭軍軍 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人從眾知識產(chǎn)權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 訓練 語言 模型 雙向 交互 注意力 平行 抽取 方法 | ||
1.基于預訓練語言模型及雙向交互注意力的平行句對抽取方法,其特征在于:
所述方法的具體步驟如下:
Step1、通過網(wǎng)絡爬蟲技術收集并構建中越平行數(shù)據(jù),利用負采樣獲得非平行數(shù)據(jù),通過人工對數(shù)據(jù)集進行標注得到漢越可比語料數(shù)據(jù)集;
Step2、通過預訓練語言模型分別為源語言和目標語言進行編碼獲取語義表征;然后利用雙向交互注意力機制對獲取到的語義表征進行空間語義對齊,最后基于多視角特征融合后的語義表征實現(xiàn)跨語言句對的關系判定,基于雙語表征一致性,實現(xiàn)噪聲環(huán)境下平行句對的抽取。
2.根據(jù)權利要求1所述的基于預訓練語言模型及雙向交互注意力的平行句對抽取方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、通過網(wǎng)絡爬蟲技術獲取中越平行數(shù)據(jù);
Step1.2、對爬取的數(shù)據(jù)進行清洗和對齊后,用作模型訓練的正樣本,為了保持樣本數(shù)量的平衡,通過負采樣為每個正樣本構造一個對應的負樣本,對于每對平行句,隨機抽樣生成負樣本,由正負樣本構成的可比語料庫用來訓練模型;
Step1.3、采用人工標注,獲得漢越可比語料數(shù)據(jù)集;最終數(shù)據(jù)由2n個三元組組成n為平行句和非平行句的數(shù)量;代表源語言句子,代表目標語言句子,yi是表示和之間翻譯關系的標簽,當源語言句與目標語言句為平行句時,標簽設置為1,當源語言與目標語言為非平行句時,標簽設置為0。
3.根據(jù)權利要求1所述的基于預訓練語言模型及雙向交互注意力的平行句對抽取方法,其特征在于:所述Step2中,通過預訓練語言模型分別為源語言和目標語言進行編碼獲取語義表征包括如下:
通過跨語言文本語義編碼層分別對源語言和目標語言進行編碼,長度為ls的源語言句子序列表示為Si={x1,x2...xls},i∈M,長度為lt的目標語言句子序列表示為Tj={y1,y2...ytt},j∈N,M,N表示句子總數(shù);使用預訓練的多語言BERT作為雙語編碼器,源語言和目標語言經(jīng)過語義編碼層分別表示為:
其中,i∈M表示經(jīng)過編碼后源語言的向量表示,j∈N表示經(jīng)過編碼后目標語言的向量表示,d代表源語言和目標語言句子中單詞的詞向量維度,生成的向量作為下一層跨語言語義對齊層的輸入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111082587.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:虛擬維度表構建方法及裝置
- 下一篇:一種兒科用呼吸道清潔排痰裝置





