[發(fā)明專利]一種針對詞匯序列數(shù)據(jù)的綜合位置編碼方法有效
| 申請?zhí)枺?/td> | 202011297709.4 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112464651B | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計)人: | 柳林青;徐小龍 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/284;G06F40/58;G06N3/0455;G06N3/047;G06N3/048;G06N3/08 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 母秋松 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 詞匯 序列 數(shù)據(jù) 綜合 位置 編碼 方法 | ||
本發(fā)明公開了一種針對詞匯序列數(shù)據(jù)的綜合位置編碼方法,在詞匯序列輸入模型之前,每個詞匯除了自身的編碼之外,還附加了詞匯在序列中絕對位置的編碼;在深度學(xué)習(xí)模型中進(jìn)行兩兩詞匯的二元關(guān)系計算時,還加入了兩個詞匯在序列中的相對位置的編碼;兩種位置編碼本身的數(shù)值是可優(yōu)化的,在訓(xùn)練過程中不斷被調(diào)整數(shù)值。本發(fā)明在對詞匯原位置進(jìn)行絕對位置編碼的基礎(chǔ)上,進(jìn)一步將任意兩個詞匯之間距離進(jìn)行編碼,并將兩種編碼進(jìn)行組合,從而將具有序列化特征的語言源數(shù)據(jù)在并行輸入到深度學(xué)習(xí)模型進(jìn)行計算時,能夠有效地體現(xiàn)數(shù)據(jù)的序列性。相比現(xiàn)有的位置編碼方法,本發(fā)明可以使目前主流的機(jī)器翻譯模型實現(xiàn)更高的翻譯精度,錯誤率更低。
技術(shù)領(lǐng)域
本發(fā)明涉及一種針對詞匯序列數(shù)據(jù)的綜合位置編碼方法,屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù)
在自然語言處理任務(wù)中,最常見的作為輸入的源數(shù)據(jù)單元為句子,或稱為詞匯的序列,是天生具備時間/空間/邏輯關(guān)系序列屬性的。自然而然,在使用神經(jīng)網(wǎng)絡(luò)模型對序列進(jìn)行處理時,人們最先想到了循環(huán)神經(jīng)網(wǎng)絡(luò):一種具備對數(shù)據(jù)進(jìn)行序列化處理能力的深度學(xué)習(xí)模型。但從語義分析的角度來看,詞匯序列的處理不能完全按照空間順序進(jìn)行,因為詞匯與詞匯之間關(guān)系并不完全與它們在序列中的空間順序一致對應(yīng),同時簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)無法處理長期依賴。LSTM、基于注意力的雙向LSTM等深度學(xué)習(xí)模型被提出來應(yīng)對這些問題。
進(jìn)一步地,針對循環(huán)神經(jīng)網(wǎng)絡(luò)模型不可避免的高時間開銷的問題,具有對數(shù)據(jù)進(jìn)行并行化處理功能的卷積神經(jīng)網(wǎng)絡(luò)被引入到神經(jīng)機(jī)器翻譯領(lǐng)域用來對數(shù)據(jù)輸入進(jìn)行處理;與此同時,注意力機(jī)制的發(fā)現(xiàn),對于提高神經(jīng)機(jī)器翻譯模型的性能表現(xiàn)起到了重要作用,其中,通過融入編碼器/解碼器自注意力機(jī)制和編碼器與解碼器之間的注意力機(jī)制,對數(shù)據(jù)輸入進(jìn)行并行化處理的點乘網(wǎng)絡(luò)模型:Transformer,進(jìn)一步地將并行模型與序列化數(shù)據(jù)結(jié)合了起來,起到了非常好的效果。
與循環(huán)神經(jīng)網(wǎng)絡(luò)模型、卷積神經(jīng)網(wǎng)絡(luò)模型相同,Transformer模型作為神經(jīng)機(jī)器翻譯的工具時,我們需要對此類模型進(jìn)行訓(xùn)練和測試,在得到模型測試的滿意結(jié)果之后,才能夠?qū)⒋四P蛻?yīng)用到具體的翻譯實踐當(dāng)中去。在對Transformer模型進(jìn)行訓(xùn)練時,我們所需的訓(xùn)練數(shù)據(jù),就是一對一對的翻譯樣例,我們稱之為平行語料,比如:
“I?love?my?family:我愛我的家庭”;英文部分為源輸入,中文部分為目標(biāo)輸入,或者二者顛倒過來。
這樣的翻譯樣例,當(dāng)我們手里有幾十上百萬不同的平行語料之后,我們就可以利用這些平行語料對翻譯模型進(jìn)行訓(xùn)練了,技術(shù)上我們稱這些平行語料為“訓(xùn)練數(shù)據(jù)”,對應(yīng)的,在對模型的測試階段,我們也需要使用數(shù)據(jù)對訓(xùn)練好的模型進(jìn)行測試,以判斷訓(xùn)練后的模型是否能夠滿足我們的要求并應(yīng)用到實踐中去,這些在測試階段使用的數(shù)據(jù),雖然形式和訓(xùn)練階段使用的數(shù)據(jù)一樣都是一對一對的平行語料,但我們要求這些在測試階段使用的數(shù)據(jù)不同于訓(xùn)練階段使用的數(shù)據(jù),并且把其稱為“測試數(shù)據(jù)”。
這種一對一的平行語料,在輸入模型之前,會被分解為兩部分內(nèi)容,第一部分內(nèi)容為輸入語句所包含的一個一個單詞其本身所包含的內(nèi)容,比如“I?love?my?family;”,針對英文來說,由于英文語句本身就是由一個一個彼此隔開的單詞所組成的,所以我們可以直接將其拆分成一組單詞,而對于中文來說,由于中文句子是連續(xù)的漢字組成的,而我們顯然不可能以單個漢字為單位來表示一個句子,因此在輸入模型之前我們還需要使用單詞切分技術(shù)將其切分成一個一個像英文語句那樣隔開的單詞組合,這牽扯到另外一個語句切分的技術(shù)話題,由于本專利涉及內(nèi)容與此技術(shù)相隔較遠(yuǎn),在此不作贅述,我們需要默認(rèn)中文語句是由已經(jīng)被切分好的單詞組所組成的。平行語料被分解的第二部分內(nèi)容為語句中每個單詞在語句中的位置信息,比如單詞“my”在語句“I?love?my?family;”中的位置就是3,我們需要將單詞的位置信息附加到單詞上,作為模型的輸入。這樣,這些一對一的翻譯樣例,就具備了完整的信息,作為序列化的詞匯數(shù)據(jù),被輸入模型進(jìn)行訓(xùn)練/測試。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011297709.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





