[發(fā)明專利]基于多種詞向量訓(xùn)練語言模型的方法、裝置、設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202010479619.0 | 申請日: | 2020-05-29 |
| 公開(公告)號: | CN111737995A | 公開(公告)日: | 2020-10-02 |
| 發(fā)明(設(shè)計)人: | 李臻;李宇琨;孫宇 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京鴻德海業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多種 向量 訓(xùn)練 語言 模型 方法 裝置 設(shè)備 介質(zhì) | ||
1.一種基于多種詞向量訓(xùn)練語言模型的方法,包括:
將包括第一詞掩碼的第一樣本文本語料輸入語言模型,經(jīng)所述語言模型輸出所述第一詞掩碼的上下文向量;
基于所述第一詞掩碼的上下文向量和第一詞向量參數(shù)矩陣獲取所述第一詞掩碼的第一概率分布矩陣,基于所述第一詞掩碼的上下文向量和第二詞向量參數(shù)矩陣獲取所述第一詞掩碼的第二概率分布矩陣;其中,所述第一詞向量參數(shù)矩陣為預(yù)先訓(xùn)練好的、所述語言模型對應(yīng)的詞向量參數(shù)矩陣,所述第二詞向量參數(shù)矩陣為預(yù)先訓(xùn)練好的、其他語言模型對應(yīng)的詞向量參數(shù)矩陣;
基于所述第一概率分布矩陣和所述第二概率分布矩陣確定所述第一詞掩碼對應(yīng)的詞向量;
基于所述第一詞掩碼對應(yīng)的詞向量對所述語言模型進(jìn)行訓(xùn)練,直至滿足第一預(yù)設(shè)訓(xùn)練完成條件。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述將包括第一詞掩碼的樣本文本語料輸入語言模型,經(jīng)所述語言模型輸出所述第一詞掩碼的上下文向量之后,還包括:
基于所述第一詞掩碼的上下文向量和全連接矩陣獲取所述第一詞掩碼的第三概率分布矩陣;
所述基于所述第一概率分布矩陣和所述第二概率分布矩陣確定所述第一詞掩碼對應(yīng)的詞向量,包括:
基于所述第一概率分布矩陣、所述第二概率分布矩陣和所述第三概率分布矩陣確定所述第一詞掩碼對應(yīng)的詞向量。
3.根據(jù)權(quán)利要求2所述的方法,所述基于所述第一詞掩碼的上下文向量和第一詞向量參數(shù)矩陣獲取所述第一詞掩碼的第一概率分布矩陣,包括:將所述第一詞掩碼的上下文向量與所述第一詞向量參數(shù)矩陣相乘,得到所述第一詞掩碼的第一概率分布矩陣;和/或,
所述基于所述第一詞掩碼的上下文向量和第二詞向量參數(shù)矩陣獲取所述第一詞掩碼的第二概率分布矩陣,包括:將所述第一詞掩碼的上下文向量與所述第二詞向量參數(shù)矩陣相乘,得到所述第一詞掩碼的第二概率分布矩陣;和/或,
所述基于所述第一詞掩碼的上下文向量和全連接矩陣獲取所述第一詞掩碼的第三概率分布矩陣,包括:將所述第一詞掩碼的上下文向量與所述全連接矩陣相乘,得到所述第一詞掩碼的第三概率分布矩陣。
4.根據(jù)權(quán)利要求2所述的方法,所述基于所述第一概率分布矩陣、所述第二概率分布矩陣和所述第三概率分布矩陣確定所述第一詞掩碼對應(yīng)的詞向量,包括:
將所述第一概率分布矩陣、所述第二概率分布矩陣和所述第三概率分布矩陣相加,得到總概率分布矩陣;
對所述總概率分布矩陣中的概率值進(jìn)行歸一化處理,得到所述第一詞掩碼對應(yīng)多個詞向量的多個歸一化概率值;
基于所述多個歸一化概率值確定所述第一詞掩碼對應(yīng)的詞向量。
5.根據(jù)權(quán)利要求2所述的方法,所述基于所述第一詞掩碼對應(yīng)的詞向量對所述語言模型進(jìn)行訓(xùn)練,直至滿足第一預(yù)設(shè)訓(xùn)練完成條件,包括:
基于所述第一詞掩碼對應(yīng)的詞向量對所述語言模型和所述全連接矩陣進(jìn)行訓(xùn)練,直至滿足所述第一預(yù)設(shè)訓(xùn)練完成條件。
6.根據(jù)權(quán)利要求1-5中任一項所述的方法,其中,所述將包括第一詞掩碼的第一樣本文本語料輸入所述語言模型,經(jīng)所述語言模型輸出所述第一詞掩碼的上下文向量之前,還包括:
對初始化語言模型和初始化第一詞向量參數(shù)矩陣進(jìn)行訓(xùn)練,直至滿足第二預(yù)設(shè)訓(xùn)練完成條件,得到所述語言模型和所述第一詞向量參數(shù)矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010479619.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 移動向量解碼方法和移動向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動估計的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計算機(jī)可讀存儲介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計算機(jī)可讀存儲介質(zhì)
- 近鄰向量的召回方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





