[發(fā)明專利]一種自然語言模型的生成方法和計算機設備在審
| 申請?zhí)枺?/td> | 202010521980.5 | 申請日: | 2020-06-10 |
| 公開(公告)號: | CN113779185A | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設計)人: | 李超 | 申請(專利權)人: | 武漢TCL集團工業(yè)研究院有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市君勝知識產(chǎn)權代理事務所(普通合伙) 44268 | 代理人: | 吳志益;謝松 |
| 地址: | 430000 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然語言 模型 生成 方法 計算機 設備 | ||
本申請涉及一種自然語言模型的生成方法和計算機設備,采用目標字符串替換待替換字符串,因此,自然語言模型可以學習到每一個目標字符串與替換語句中除了目標字符串以外的其他字符串之間的關系,另外,由于未采用Mask的方式遮蔽詞語,這樣,BERT訓練采用的語句與下游任務采用的語句均不需要遮蔽語句中的字符串,即BERT訓練與下游任務的微調過程一致。由于已訓練的自然語言模型的語義表征具有目標字符串的語義信息,且BERT訓練與下游任務的微調過程一致,使得已訓練的自然語言模型處理的任務的精度得到提高。
技術領域
本申請涉及自然語言處理技術領域,特別是涉及一種自然語言模型的生成方法和計算機設備。
背景技術
自然語言處理(Nature Language Processing,NPL)是人工智能的一個子領域,通常分為四大類任務:序列標注,分類任務,關系判斷,以及生成式任務,預訓練語言模型能夠提高自然語言處理任務的精度,這是因為通過預訓練語言模型可以得到合適的詞向量,合適的詞向量能有效提升自然語言處理任務的表現(xiàn)。
基于全神經(jīng)網(wǎng)絡的預訓練語言模型在語言學習方面取得了重大突破,谷歌提出了Transformers的雙向編碼器(Bidirectional Encoder Representations fromTransformers,BERT)預訓練語言模型,BERT刷新了11項不同的自然語言處理任務的成績。繼BERT之后,很多學者在BERT的基礎上進行改進,提出了效果更好的預訓練語言模型,如ALBERT、RoBERTa、SpanBERT等。這些模型通過增加訓練數(shù)據(jù)量、改進訓練目標、參數(shù)共享等方法來提升模型效果,雖然能取得比BERT更好的效果,但是沒能從根本上改正BERT的缺點:BERT通過Mask的方式遮蔽一些詞語,然后對遮蔽詞進行預測,從而達到訓練語言模型的目的,但是被遮蔽掉的詞語之間是相互獨立的,BERT難以學到被遮蔽的詞語之間的關系,這樣,通過現(xiàn)有的訓練方法訓練得到的語言處理模型,無法學習被遮蔽的詞語之間的語義信息,語義表征能力較弱,導致自然語言處理任務的精度不高。
因此,現(xiàn)有技術有待改進。
發(fā)明內容
本發(fā)明要解決的技術問題是,提供一種自然語言模型的生成方法和計算機設備,通過本發(fā)明訓練得到的自然語言模型可以學習到替換語句中所有字符串之間的關系,以及目字符串與替換語句中其他字符串之間的關系,在使用時可以提高自然語言處理任務的精度。
第一方面,本發(fā)明實施例提供了一種自然語言模型的生成方法,所述方法包括:
初始神經(jīng)網(wǎng)絡根據(jù)替換語句生成預測字符串標簽,其中,所述替換語句是將訓練數(shù)據(jù)中的語句的待替換字符串替換為目標字符串得到的,所述待替換字符串與所述待替換字符串對應的目標字符串之間的相似度滿足預設條件,所述訓練數(shù)據(jù)包括多組訓練語句組,每一組訓練語句組包括語句和第一真實標簽,所述第一真實標簽為用于反映待替換字符串的標識,所述預測字符串標簽為用于反映所述目標字符串為所述待替換字符串的概率的標識;
所述初始神經(jīng)網(wǎng)絡根據(jù)所述預測字符串標簽和所述第一真實標簽,對所述初始神經(jīng)網(wǎng)絡的參數(shù)進行修正,并繼續(xù)執(zhí)行根據(jù)所述替換語句生成預測字符串標簽的步驟,直至滿足所述初始神經(jīng)網(wǎng)絡的預設訓練條件,以得到已訓練的自然語言模型。
第二方面,本發(fā)明實施例提供了一種自然語言的處理方法,包括:
將遮蔽語句輸入已訓練的自然語言模型,以生成第一對象標簽,其中,所述遮蔽語句包括遮蔽字符串,所述第一對象標簽為用于反映所述遮蔽字符串對應的對象字符串的標識,所述已訓練的自然語言模型為上述一種自然語言模型的生成方法中的自然語言模型。
第三方面,本發(fā)明實施例提供了一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢TCL集團工業(yè)研究院有限公司,未經(jīng)武漢TCL集團工業(yè)研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010521980.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





