[發明專利]一種基于上下文銜接手段遮蔽框架系統在審
| 申請號: | 202210071846.9 | 申請日: | 2022-01-21 |
| 公開(公告)號: | CN114492317A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 熊德意;雷易錕 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/58;G06N3/04 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 上下文 銜接 手段 遮蔽 框架 系統 | ||
1.一種基于上下文銜接手段遮蔽模型框架系統,其特征在于,該框架系統包括輸入、編碼器和解碼器、模型損失函數、預測器以及銜接手段遮蔽策略;其中:
所述輸入包括兩部分即經過遮蔽處理的源語言輸入、右移的目標語言輸入;所述經過遮蔽處理的源語言輸入所述編碼器,通過所述編碼器將源語言句子進行編碼,獲得源語言句子表示Hx;所述右移的目標語言句子輸入所述解碼器,包含了目標語言上下文句子和目標語言當前句子,所述解碼器根據編碼器生成的源語言句子表示和右移的目標語言句子解碼生成目標語言句子的句子表示Hy;
所述模型損失函數為預測被遮蔽單詞損失函數、預測目標句子損失函數;其中:
預測被遮蔽單詞損失函數:根據編碼器生成的源語言句子Hx,使用源語言詞向量表將其映射到源語言詞表空間,然后使用Softmax操作計算詞表中每個單詞的生成概率;使用交叉熵來計算預測被遮蔽單詞損失,公式如下:
其中,Mi表示被遮蔽單詞集合中的第i個單詞,P(Mi|x`,cx)表示被遮蔽單詞的生成概率;
預測目標句子損失函數:使用目標語言詞向量表將其映射到目標語言詞表空間,然后再使用Softmax操作計算詞表中每個單詞的生成概率P(yi|y<i,x`,cx,cy),使用交叉熵來計算預測目標句子損失,公式如下:
其中,y<i表示解碼器的生成歷史,yi表示目標句子y的第i個單詞;
所構成的總損失函數,公式如下:
L=LNLL(y|x`,cx,cy)+λLmask(M|x`,cx)
其中,λ表示用于平衡預測被遮蔽單詞損失的貢獻的超參數;
所述預測器由一個線性層和Softmax操作構成,通過線性層預測遮蔽token表示映射到詞表空間,再進行Softmax操作對新的token表示進行歸一化;通過預測器獲得每個被遮蔽單詞對應的詞表中每個單詞的預測概率P(Mi|x`,cx),使用預測概率最高的單詞作為被遮蔽單詞的預測結果;
所述銜接手段遮蔽策略將當前句子中與上下文有銜接關系的單詞進行遮蔽,對經過遮蔽處理的當前句子使用銜接手段遮蔽策略進行處理:
在給定一個源語言當前句子x和其上下文cx、以及銜接手段單詞位置數據集D中,對于數據集D,其中每一條數據e是一個源語言與目標語言的平行句對,每一端都由四個句子組成;前三個句子是第四個句子的上下文,每個句子之間使用SEP進行分隔;
數據集D中的單詞位置對應的是當前句子中與上下文cx存在銜接關系的一個單詞,其中的銜接關系至少包括重復、共指;使用遮蔽率r來控制當前句子被遮蔽信息的比例,首先,根據遮蔽率r計算出當前句子被遮蔽單詞的最少數量l;如果D中單詞位置數量大于等于l,銜接遮蔽手段策略將源語言當前句子中對應位置的單詞全部替換為特殊符號M,表示被遮蔽;如果D中單詞數量小于l,將在剩余的沒有被遮蔽的單詞中隨機挑選l-|D|個單詞來進行遮蔽,保證最終被遮蔽的單詞數量等于l;將被遮蔽單詞的集合表示為M,經過遮蔽操作后的當前句子x表示為x`,最后,將x`與cx使用特殊符號SEP進行拼接,作為編碼器的輸入;
在詞匯銜接手段提取過程中,對于源語言當前句子x,首先遍歷x中的每一個單詞xi,通過WordNet,獲得xi的所有同義詞、近義詞和上下位詞;然后再遍歷上下文句子中的所有單詞cx,如果cx是xi的同義詞、近義詞或者上下位詞,則記錄xi在源語言當前句子中的位置i;最后,獲得一個單詞位置集合,其中每個位置對應當前句子中的一個單詞,這個單詞與其上下文的某個單詞具有詞匯銜接關系;
對于語法銜接手段,使用CoreNLP工具來進行抽??;直接將上下文與當前句子拼接后的序列使用CoreNLP獲得所有可能的共指關系集合;
最后將詞匯銜接手段單詞位置集合與語法銜接手段單詞位置集合進行合并,去除重復的位置,獲得最終的銜接手段單詞位置數據集D,銜接手段單詞遮蔽策略根據數據集D來進行遮蔽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210071846.9/1.html,轉載請聲明來源鉆瓜專利網。





