[發明專利]用于NLP任務的語言模型構建方法、裝置、設備及介質在審
| 申請號: | 202110602682.3 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113204961A | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 于鳳英;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/284 |
| 代理公司: | 深圳市明日今典知識產權代理事務所(普通合伙) 44343 | 代理人: | 王杰輝;宋慶洪 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 nlp 任務 語言 模型 構建 方法 裝置 設備 介質 | ||
本申請涉及人工智能技術領域,揭示了一種用于NLP任務的語言模型構建方法、裝置、設備及介質,其中方法包括:獲取目標領域的目標詞向量生成模型的第一詞典,目標詞向量生成模型是基于Word2vec訓練得到的模型;獲取初始語言模型的第二詞典,初始語言模型為采用不限領域的樣本數據訓練得到的Bert模型;根據第一詞典和第二詞典進行交集獲取得到目標詞典交集數據;采用最小二乘法對目標詞典交集數據進行擬合無約束線性變換得到模擬矩陣向量;根據初始語言模型、目標詞向量生成模型和模擬矩陣向量進行語言模型構建得到目標領域對應的目標語言模型。實現進行結構更改之后可以處理目標領域的NLP任務,減少了硬件代價,減少了需要花費的時間。
技術領域
本申請涉及到人工智能技術領域,特別是涉及到一種用于NLP任務的語言模型構建方法、裝置、設備及介質。
背景技術
對于預訓練好的語言模型,我們通常需要將其應用到另一個領域來處理NLP(自然語言處理)任務。傳統方法是通過采用目標領域的文本對預訓練好的語言模型進行無監督的預訓練來實現處理目標領域的NLP任務,比如,想要對生物醫學領域進行文本挖掘任務時,需要使用已經在通用領域訓練好的Bert模型(語言模型)的權重初始化BioBERT(用于生物醫學文本挖掘的預訓練語言表示模型),然后采用生物醫學領域的語料庫對權重初始化后的BioBERT進行預訓練。該訓練方法出來的結果比較好,但是在硬件方面需要巨大代價,訓練需要花費大量的時間,導致延遲了新興領域的NLP任務的發展。
發明內容
本申請的主要目的為提供一種用于NLP任務的語言模型構建方法、裝置、設備及介質,旨在解決現有技術采用目標領域的文本對預訓練好的語言模型進行無監督的預訓練來實現處理目標領域的NLP任務,在硬件方面需要巨大代價,訓練需要花費大量的時間的技術問題。
為了實現上述發明目的,本申請提出一種用于NLP任務的語言模型構建方法,所述方法包括:
獲取目標領域的目標詞向量生成模型的第一詞典,所述目標詞向量生成模型是基于Word2vec訓練得到的模型;
獲取初始語言模型的第二詞典,所述初始語言模型為采用不限領域的樣本數據訓練得到的Bert模型;
根據所述第一詞典和所述第二詞典進行交集獲取,得到目標詞典交集數據;
采用最小二乘法,對所述目標詞典交集數據進行擬合無約束線性變換,得到模擬矩陣向量;
根據所述初始語言模型、所述目標詞向量生成模型和所述模擬矩陣向量進行語言模型構建,得到所述目標領域對應的目標語言模型。
進一步的,所述獲取目標領域的目標詞向量生成模型的第一詞典的步驟之前,還包括:
獲取所述目標領域的訓練樣本集合;
采用所述訓練樣本集合對詞向量生成初始模型進行訓練,將訓練結束的所述詞向量生成初始模型作為所述目標詞向量生成模型。
進一步的,所述根據所述第一詞典和所述第二詞典進行交集獲取,得到目標詞典交集數據的步驟,包括:
根據所述第一詞典和所述第二詞典進行交集獲取,得到待去噪的詞典交集數據;
對所述待去噪的詞典交集數據進行噪聲字符的去除,得到所述目標詞典交集數據,其中,所述噪聲字符包括:表情符號、標點符號和空字符。
進一步的,所述模擬矩陣向量表述為W,采用如下公式計算得到:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110602682.3/2.html,轉載請聲明來源鉆瓜專利網。





