[發(fā)明專利]句向量訓(xùn)練方法及模型、句向量預(yù)測(cè)方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201911261750.3 | 申請(qǐng)日: | 2019-12-10 |
| 公開(公告)號(hào): | CN111222329B | 公開(公告)日: | 2023-08-01 |
| 發(fā)明(設(shè)計(jì))人: | 陳海飛 | 申請(qǐng)(專利權(quán))人: | 上海八斗智能技術(shù)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F18/214 |
| 代理公司: | 南通毅帆知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32386 | 代理人: | 劉紀(jì)紅 |
| 地址: | 200082 上海市*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 向量 訓(xùn)練 方法 模型 預(yù)測(cè) 系統(tǒng) | ||
1.一種句向量預(yù)測(cè)模型構(gòu)建方法,其特征在于,包括以下步驟:
S11、構(gòu)建句向量訓(xùn)練模型;
S12、對(duì)所述句向量訓(xùn)練模型進(jìn)行訓(xùn)練;
S13、向句向量預(yù)測(cè)模型中導(dǎo)入所述句向量訓(xùn)練模型的參數(shù);
所述構(gòu)建句向量訓(xùn)練模型具體包括以下步驟:
獲取訓(xùn)練語句,將訓(xùn)練語句預(yù)處理得到token序列s,經(jīng)過中文全詞覆蓋得到預(yù)測(cè)詞對(duì)應(yīng)的token序列w和覆蓋后得到原句對(duì)應(yīng)的token序列s/{w},求解公式1-1:
基于整個(gè)語料,目標(biāo)函數(shù)表示為公式1-2:
對(duì)token索引數(shù)字序列和位置序列進(jìn)行one-hot編碼經(jīng)過token?embedding?table和position?embedding?table(token?embedding?table與position?embedding?table參數(shù)記做W),得到token向量和位置向量,記第j個(gè)token的token向量為和位置向量為兩向量元素相乘得到token在整個(gè)句子中的特征向量Ej,根據(jù)公式1-3
得到句子向量vs/{w};
對(duì)目標(biāo)token序列w進(jìn)行one-hot編碼,經(jīng)過token?embedding?table(此處tokenembedding?table參數(shù)記做U)得到token向量,記第i個(gè)token的token向量為根據(jù)句子向量和預(yù)測(cè)的token向量式1-2中的
其中C表示詞表中所有的詞;
對(duì)所述句向量訓(xùn)練模型模型進(jìn)行訓(xùn)練包括:
將每個(gè)樣本token序列度限定在200以內(nèi);設(shè)置batch?size為64,對(duì)樣本集合中token序列小于200的做padding處理和token?mask記錄,計(jì)算vs/{w}時(shí)先進(jìn)行bool?mask處理;
得到公式1-3中的R(s/{w})和token特征向量Ej,按公式1-3計(jì)算得到句子向量。
2.如權(quán)利要求1所述的句向量預(yù)測(cè)模型構(gòu)建方法,其特征在于,在所述S11之前,還包括:
構(gòu)建訓(xùn)練集;
對(duì)語料進(jìn)行預(yù)處理,得到語料D,統(tǒng)計(jì)所述語料D內(nèi)的詞頻,取詞頻X的詞形成詞表,對(duì)應(yīng)詞頻=X的詞標(biāo)注為[UNK],并在所述詞表內(nèi)插入[UNK];所述詞表中每個(gè)token對(duì)應(yīng)唯一索引;
對(duì)預(yù)處理后的語料庫進(jìn)行詞轉(zhuǎn)索引處理,每條句子經(jīng)過中文全詞覆蓋后得到一條訓(xùn)練樣本。
3.如權(quán)利要求1所述的句向量預(yù)測(cè)模型構(gòu)建方法,其特征在于,經(jīng)過預(yù)處理得到token序列s,經(jīng)過中文全詞覆蓋得到預(yù)測(cè)詞對(duì)應(yīng)的token序列w和原句覆蓋后對(duì)應(yīng)的token序列s/{w};序列w與原句覆蓋后token序列s/{w}組成正樣本,p(1|wi,s/{w})表示該樣本來自于語料D的概率;隨機(jī)token記c與s/{w}組成負(fù)樣本,p(0|c,s/{w})表示該樣本不來自于語料D的概率;
改為
其中D'用以表示隨機(jī)從詞表中取得token和s/{w}的樣本集合;
樣本來自語料D概率為
4.一種句向量預(yù)測(cè)模型,其特征在于,所述句向量預(yù)測(cè)模型通過上述權(quán)利要求1-3任一項(xiàng)所述的句向量預(yù)測(cè)模型構(gòu)建方法構(gòu)建而成。
5.一種句向量預(yù)測(cè)方法,其特征在于,包括以下步驟:
S21、獲取句子輸入并進(jìn)行預(yù)處理;
S22、將token索引序列和位置序列作為句子編碼層輸入;輸入至權(quán)利要求4所述的句向量預(yù)測(cè)模型;
S23、根據(jù)公式
得到的vs即為句子向量編碼。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海八斗智能技術(shù)有限公司,未經(jīng)上海八斗智能技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911261750.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





