[發(fā)明專利]句向量訓練方法及模型、句向量預測方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911261750.3 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN111222329B | 公開(公告)日: | 2023-08-01 |
| 發(fā)明(設(shè)計)人: | 陳海飛 | 申請(專利權(quán))人: | 上海八斗智能技術(shù)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F18/214 |
| 代理公司: | 南通毅帆知識產(chǎn)權(quán)代理事務所(普通合伙) 32386 | 代理人: | 劉紀紅 |
| 地址: | 200082 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 向量 訓練 方法 模型 預測 系統(tǒng) | ||
本發(fā)明提供了一種句向量訓練方法及模型、句向量預測方法及系統(tǒng),其中向量預測模型構(gòu)建方法,包括以下步驟:S11、構(gòu)建句向量訓練模型;S12、對所述句向量訓練模型模型進行訓練;S13、向句向量預測模型中導入所述句向量訓練模型的參數(shù)。本句向量訓練方法及模型、句向量預測方法及系統(tǒng),進行句向量預測時有很好的領(lǐng)域適應能力和句子向量泛化能力,可直接遷移到多種領(lǐng)域進行使用。
技術(shù)領(lǐng)域
本發(fā)明涉及句向量預測技術(shù)領(lǐng)域,尤其涉及一種句向量訓練方法及模型、句向量預測方法及系統(tǒng)。
背景技術(shù)
句子相似度,可以計算兩個向量的空間距離得出,句子的向量表示來自seq2seq模型的encoder最后輸出的state,它具有句子的語意信息,在論文中常常用context表示。
句子向量學習大多采用3種技術(shù)方案:
(1)基于詞共現(xiàn)任務在大規(guī)模語料訓練詞向量,對句子分詞,獲取每個詞的向量表示,將全部詞的向量疊加成一個新的向量作為句子的向量表示。
(2)采用encoder-decoder模型(編碼器-解碼器模型),通過中心句預測上下文的句子,將對句子通過encoder得到的向量作為句子的向量表示。
(3)采用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))、CNN(卷積神經(jīng)網(wǎng)絡(luò))、注意力機制或更復雜的模型,基于自然語言處理中常見任務(命名實體實體、句子相似性判定等)的標注語料,進行多任務學習,以共享層輸出作為句子的向量表示.
以上方案存在問題,如(3)標注語料規(guī)模小,遷移到新的領(lǐng)域時會出現(xiàn)領(lǐng)域過擬合問題,句子向量泛化能力差,遷移到新的任務時性能下降。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明要解決的技術(shù)問題是提供一種句向量訓練方法及模型、句向量預測方法及系統(tǒng),進行句向量預測時有很好的領(lǐng)域適應能力和句子向量泛華能力,可直接遷移到多種領(lǐng)域進行使用。
本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
一種句向量預測模型構(gòu)建方法,包括以下步驟:
S11、構(gòu)建句向量訓練模型;
S12、對所述句向量訓練模型模型進行訓練;
S13、向句向量預測模型中導入所述句向量訓練模型的參數(shù)。
優(yōu)選的,在所述S11之前,還包括:
構(gòu)建訓練集;
對語料進行預處理,得到語料D,統(tǒng)計所述語料D內(nèi)的詞頻,取詞頻>X的詞形成詞表,對應詞頻<=X的詞標注為[UNK],并在所述詞表內(nèi)插入[UNK];所述詞表中每個token對應唯一索引;
對預處理后的語料庫進行詞轉(zhuǎn)索引處理,每條句子經(jīng)過中文全詞覆蓋后得到一條訓練樣本。
優(yōu)選的,所述構(gòu)建句向量訓練模型具體包括以下步驟:
獲取訓練語句,將訓練語句預處理得到token序列s,經(jīng)過中文全詞覆蓋得到預測詞對應的token序列w和覆蓋后得到原句對應的token序列s/{w},求解公式1-1:
基于整個語料,目標函數(shù)表示為公式1-2:
對token索引數(shù)字序列和位置序列進行one-hot編碼經(jīng)過token?embedding?table和position?embedding?table(token?embedding?table與position?embedding?table參數(shù)記做W),得到token向量和位置向量,記第j個token的token向量為和位置向量為兩向量元素相乘得到token在整個句子中的特征向量Ej,根據(jù)公式1-3
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海八斗智能技術(shù)有限公司,未經(jīng)上海八斗智能技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911261750.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





