[發(fā)明專利]基于多種詞向量訓(xùn)練語言模型的方法、裝置、設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202010479619.0 | 申請日: | 2020-05-29 |
| 公開(公告)號: | CN111737995A | 公開(公告)日: | 2020-10-02 |
| 發(fā)明(設(shè)計(jì))人: | 李臻;李宇琨;孫宇 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京鴻德海業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多種 向量 訓(xùn)練 語言 模型 方法 裝置 設(shè)備 介質(zhì) | ||
本申請公開了一種基于多種詞向量訓(xùn)練語言模型的方法、裝置、設(shè)備及介質(zhì),涉及人工智能中的自然語言處理技術(shù)領(lǐng)域。具體實(shí)現(xiàn)方案為:將包括第一詞掩碼的第一樣本文本語料輸入語言模型,經(jīng)所述語言模型輸出所述第一詞掩碼的上下文向量;基于所述第一詞掩碼的上下文向量和第一詞向量參數(shù)矩陣獲取所述第一詞掩碼的第一概率分布矩陣,基于所述第一詞掩碼的上下文向量和第二詞向量參數(shù)矩陣獲取所述第一詞掩碼的第二概率分布矩陣;基于所述第一詞掩碼對應(yīng)的詞向量對所述語言模型進(jìn)行訓(xùn)練。結(jié)合多種高質(zhì)量詞向量對語言模型進(jìn)行訓(xùn)練,使語言模型學(xué)習(xí)到多源高質(zhì)量的詞義信息,增強(qiáng)語言模型的詞義信息學(xué)習(xí)能力,提高語言模型的預(yù)測性能,避免基于字粒度學(xué)習(xí)引起信息泄露風(fēng)險(xiǎn)。
技術(shù)領(lǐng)域
涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及人工智能中的自然語言處理技術(shù),尤其涉及一種基于多種詞向量訓(xùn)練語言模型的方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù)
在中文自然語言處理(Natural Language Processing,NLP)領(lǐng)域,使用大量的無監(jiān)督文本進(jìn)行語言模型自監(jiān)督的預(yù)訓(xùn)練學(xué)習(xí)(pre-training),接著采用有監(jiān)督的任務(wù)數(shù)據(jù)對語言模型進(jìn)行參數(shù)精調(diào)(fine-tuning),是當(dāng)前NLP領(lǐng)域中先進(jìn)的語言模型訓(xùn)練技術(shù)。
現(xiàn)有技術(shù)在語言模型自監(jiān)督的預(yù)訓(xùn)練學(xué)習(xí)中,為了不使語言模型的訓(xùn)練效果受到分詞器性能的影響,都是基于字粒度進(jìn)行語言模型的自監(jiān)督預(yù)訓(xùn)練學(xué)習(xí),從而使得語言模型很難學(xué)出更大語義粒度(例如詞)的信息,可能存在信息泄露的風(fēng)險(xiǎn),可能會破壞語言模型對詞本身語義的學(xué)習(xí),從而影響語言模型的預(yù)測性能。
發(fā)明內(nèi)容
本申請的多個(gè)方面提供一種基于多種詞向量訓(xùn)練語言模型的方法、裝置、設(shè)備及介質(zhì),用以避免基于字粒度學(xué)習(xí)引起信息泄露風(fēng)險(xiǎn),增強(qiáng)語言模型對詞義信息的學(xué)習(xí)能力,提高語言模型的預(yù)測性能。
根據(jù)第一方面,提供了一種基于多種詞向量訓(xùn)練語言模型的方法,包括:
將包括第一詞掩碼的第一樣本文本語料輸入語言模型,經(jīng)所述語言模型輸出所述第一詞掩碼的上下文向量;
基于所述第一詞掩碼的上下文向量和第一詞向量參數(shù)矩陣獲取所述第一詞掩碼的第一概率分布矩陣,基于所述第一詞掩碼的上下文向量和第二詞向量參數(shù)矩陣獲取所述第一詞掩碼的第二概率分布矩陣;其中,所述第一詞向量參數(shù)矩陣為預(yù)先訓(xùn)練好的、所述語言模型對應(yīng)的詞向量參數(shù)矩陣,所述第二詞向量參數(shù)矩陣為預(yù)先訓(xùn)練好的、其他語言模型對應(yīng)的詞向量參數(shù)矩陣;
基于所述第一概率分布矩陣和所述第二概率分布矩陣確定所述第一詞掩碼對應(yīng)的詞向量;
基于所述第一詞掩碼對應(yīng)的詞向量對所述語言模型進(jìn)行訓(xùn)練,直至滿足第一預(yù)設(shè)訓(xùn)練完成條件。
根據(jù)第二方面,提供了一種基于多種詞向量訓(xùn)練語言模型的裝置,包括:
語言模型,用于接收包括第一詞掩碼的第一樣本文本語料輸入語言模型,輸出所述第一詞掩碼的上下文向量;
獲取單元,用于基于所述第一詞掩碼的上下文向量和第一詞向量參數(shù)矩陣獲取所述第一詞掩碼的第一概率分布矩陣,基于所述第一詞掩碼的上下文向量和第二詞向量參數(shù)矩陣獲取所述第一詞掩碼對應(yīng)的第二概率分布矩陣;其中,所述第一詞向量參數(shù)矩陣為預(yù)先訓(xùn)練好的、所述語言模型對應(yīng)的詞向量參數(shù)矩陣,所述第二詞向量參數(shù)矩陣為預(yù)先訓(xùn)練好的、其他語言模型對應(yīng)的詞向量參數(shù)矩陣;
第一確定單元,用于基于所述第一概率分布矩陣和所述第二概率分布矩陣確定所述第一詞掩碼對應(yīng)的詞向量;
第一訓(xùn)練單元,用于基于所述第一詞掩碼對應(yīng)的詞向量對所述語言模型進(jìn)行訓(xùn)練,直至滿足第一預(yù)設(shè)訓(xùn)練完成條件。
根據(jù)第三方面,提供一種電子設(shè)備,包括:
至少一個(gè)處理器;以及
與所述至少一個(gè)處理器通信連接的存儲器;其中,
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010479619.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





