[發(fā)明專利]用于NLP任務(wù)的語言模型構(gòu)建方法、裝置、設(shè)備及介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110602682.3 | 申請(qǐng)日: | 2021-05-31 |
| 公開(公告)號(hào): | CN113204961A | 公開(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計(jì))人: | 于鳳英;王健宗 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G06F40/242 | 分類號(hào): | G06F40/242;G06F40/284 |
| 代理公司: | 深圳市明日今典知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44343 | 代理人: | 王杰輝;宋慶洪 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 nlp 任務(wù) 語言 模型 構(gòu)建 方法 裝置 設(shè)備 介質(zhì) | ||
1.一種用于NLP任務(wù)的語言模型構(gòu)建方法,其特征在于,所述方法包括:
獲取目標(biāo)領(lǐng)域的目標(biāo)詞向量生成模型的第一詞典,所述目標(biāo)詞向量生成模型是基于Word2vec訓(xùn)練得到的模型;
獲取初始語言模型的第二詞典,所述初始語言模型為采用不限領(lǐng)域的樣本數(shù)據(jù)訓(xùn)練得到的Bert模型;
根據(jù)所述第一詞典和所述第二詞典進(jìn)行交集獲取,得到目標(biāo)詞典交集數(shù)據(jù);
采用最小二乘法,對(duì)所述目標(biāo)詞典交集數(shù)據(jù)進(jìn)行擬合無約束線性變換,得到模擬矩陣向量;
根據(jù)所述初始語言模型、所述目標(biāo)詞向量生成模型和所述模擬矩陣向量進(jìn)行語言模型構(gòu)建,得到所述目標(biāo)領(lǐng)域?qū)?yīng)的目標(biāo)語言模型。
2.根據(jù)權(quán)利要求1所述的用于NLP任務(wù)的語言模型構(gòu)建方法,其特征在于,所述獲取目標(biāo)領(lǐng)域的目標(biāo)詞向量生成模型的第一詞典的步驟之前,還包括:
獲取所述目標(biāo)領(lǐng)域的訓(xùn)練樣本集合;
采用所述訓(xùn)練樣本集合對(duì)詞向量生成初始模型進(jìn)行訓(xùn)練,將訓(xùn)練結(jié)束的所述詞向量生成初始模型作為所述目標(biāo)詞向量生成模型。
3.根據(jù)權(quán)利要求1所述的用于NLP任務(wù)的語言模型構(gòu)建方法,其特征在于,所述根據(jù)所述第一詞典和所述第二詞典進(jìn)行交集獲取,得到目標(biāo)詞典交集數(shù)據(jù)的步驟,包括:
根據(jù)所述第一詞典和所述第二詞典進(jìn)行交集獲取,得到待去噪的詞典交集數(shù)據(jù);
對(duì)所述待去噪的詞典交集數(shù)據(jù)進(jìn)行噪聲字符的去除,得到所述目標(biāo)詞典交集數(shù)據(jù),其中,所述噪聲字符包括:表情符號(hào)、標(biāo)點(diǎn)符號(hào)和空字符。
4.根據(jù)權(quán)利要求1所述的用于NLP任務(wù)的語言模型構(gòu)建方法,其特征在于,所述模擬矩陣向量表述為W,采用如下公式計(jì)算得到:
其中,W是所述模擬矩陣向量以用于使第一詞向量和第二詞向量對(duì)齊,所述第一詞向量是將目標(biāo)詞語輸入所述目標(biāo)詞向量生成模型輸出的詞向量,所述第二詞向量是將所述目標(biāo)詞語輸入所述初始語言模型輸出的詞向量,所述目標(biāo)詞語是所述目標(biāo)詞典交集數(shù)據(jù)中的詞語;εw2v(x)是將所述目標(biāo)詞典交集數(shù)據(jù)中的詞語x輸入所述目標(biāo)詞向量生成模型輸出的所述第一詞向量,εLM(x)是將所述目標(biāo)詞典交集數(shù)據(jù)中的詞語x輸入所述初始語言模型輸出的所述第二詞向量,是使后面的計(jì)算表達(dá)式達(dá)到最小值,LLM∩LW2v是所述目標(biāo)詞典交集數(shù)據(jù),LLM是所述第一詞典,LW2v是所述第二詞典,是對(duì)Wεw2v(x)-εLM(x)取平方后再開根計(jì)算。
5.根據(jù)權(quán)利要求1所述的用于NLP任務(wù)的語言模型構(gòu)建方法,其特征在于,所述根據(jù)所述初始語言模型、所述目標(biāo)詞向量生成模型和所述模擬矩陣向量進(jìn)行語言模型構(gòu)建,得到所述目標(biāo)領(lǐng)域?qū)?yīng)的目標(biāo)語言模型的步驟,包括:
根據(jù)所述初始語言模型和所述目標(biāo)詞向量生成模型進(jìn)行向量生成單元生成,得到目標(biāo)詞向量生成單元;
根據(jù)所述目標(biāo)詞向量生成單元、所述初始語言模型和所述模擬矩陣向量進(jìn)行詞嵌入單元生成,得到目標(biāo)詞嵌入單元;
將所述初始語言模型去掉編碼器以前的結(jié)構(gòu),得到目標(biāo)詞向量處理單元;
將所述目標(biāo)詞向量生成單元、所述目標(biāo)詞嵌入單元和所述目標(biāo)詞向量處理單元進(jìn)行依次連接,得到所述目標(biāo)領(lǐng)域?qū)?yīng)的所述目標(biāo)語言模型。
6.根據(jù)權(quán)利要求5所述的用于NLP任務(wù)的語言模型構(gòu)建方法,其特征在于,所述根據(jù)所述初始語言模型和所述目標(biāo)詞向量生成模型進(jìn)行向量生成單元生成,得到目標(biāo)詞向量生成單元的步驟,包括:
將所述目標(biāo)詞向量生成模型作為第一詞向量生成子單元;
將所述初始語言模型的分詞器和詞向量生成器作為第二詞向量生成子單元;
將所述第一詞向量生成子單元和所述第二詞向量生成子單元進(jìn)行并聯(lián)設(shè)置,得到所述目標(biāo)詞向量生成單元。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110602682.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于NLP技術(shù)的終端交互方法及系統(tǒng)、云平臺(tái)
- 語義識(shí)別方法及設(shè)備
- 一種基于重疊度計(jì)算的NLP庫(kù)組合使用方法
- 語音交互方法及其系統(tǒng)、語音交互設(shè)備
- 自然語言處理模型的提早退出
- 基于語義結(jié)構(gòu)的口令分詞系統(tǒng)及方法
- 一種基于NLP的訓(xùn)練模式與識(shí)別模式動(dòng)態(tài)切換的方法
- 外呼系統(tǒng)部署方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- NLP模型訓(xùn)練發(fā)布識(shí)別系統(tǒng)
- 一種基于大數(shù)據(jù)調(diào)整NLP模型容量的方法
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價(jià)值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動(dòng)分配和推送的任務(wù)管理平臺(tái)及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲(chǔ)介質(zhì)
- 基于會(huì)話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語言環(huán)境設(shè)定方法
- 一種口語評(píng)測(cè)方法及裝置
- 一種語言設(shè)置方法及移動(dòng)終端
- 一種語言文本加載方法和裝置
- 一種語言交流人工智能系統(tǒng)及其語言處理方法
- 語言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語言包實(shí)現(xiàn)繼電保護(hù)裝置多語言版本方法及裝置
- 一種應(yīng)用軟件的多語言核對(duì)方法及系統(tǒng)
- 多語言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)





