[發明專利]一種領域化詞向量的優化方法及基于其的融合排序方法有效
| 申請號: | 201811257850.4 | 申請日: | 2018-10-26 |
| 公開(公告)號: | CN109359302B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 劉慧君;李傲;曾一;喬猛;周明強;鄔小燕 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/383;G06F16/33;G06F16/332;G06N3/045 |
| 代理公司: | 重慶信航知識產權代理有限公司 50218 | 代理人: | 李磊 |
| 地址: | 400000 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 領域 向量 優化 方法 基于 融合 排序 | ||
1.一種領域化詞向量的優化方法,其特征在于,包括如下步驟:S11、進行無領域詞向量的訓練;S12、進行領域詞向量的訓練并得到需求詞向量;
S11具體步驟如下:
S111、對無領域語料庫進行數據清洗,將表情符號以及無法識別的亂碼進行清除,并對無領域語料庫本身進行分詞處理;
S112、使用Word2Vec模型對整體的語料庫進行訓練,得到初始詞向量Vold(w);
S113、根據每個詞在無領域語料庫中的頻率p(w)為其設置權重,并根據下列公式計算無領域語料庫中無領域詞向量:
Vundomain(w)=exp(p(w))×Vold(w)
式中,Vundomain(w)表示無領域詞向量,p(w)為每個詞在語料庫中的頻率;
S12具體步驟如下:
S121、對領域語料庫進行數據清洗,將表情符號以及無法識別的亂碼進行清除,并對領域語料庫本身使用LTP的分詞模型進行分詞處理;
S122、計算每個詞語的IDF(w)值,IDF(w)值為每個詞語在領域語料庫中出現的概率,并計算出IDF_weight的值,設所有詞語在領域語料庫中出現的頻率的中間值為IDFmo,所有詞語在領域語料庫中出現的頻率的平均值為則
S123、進行領域語料庫詞向量的訓練,采用Skip-gram與cBOW進行對比,使用負采樣優化,數量設置依據具體場景和測試結果而定,在進行模型訓練時采用下采樣,窗口大小依據具體場景而定,得領域詞向量Vold(w)';
S124、根據每個詞在領域語料庫內出現的頻率p(w)'進行空間映射得到Volddomain(w),計算公式如下:
Volddomain(w)=exp(p(w)')×Vold(w)
S125、將領域語料庫內領域詞向量與無領域詞向量進行融合,得到需求詞向量Vnew(w)。
2.根據權利要求1所述的一種領域化詞向量的優化方法,其特征在于,在計算完步驟S12后進行步驟S13,步驟13中進行對需求詞向量進行修正,步驟13具體包括以下步驟:
S131、使用在專業領域的相似問題對,對每條文本進行分詞操作,并為每一個詞語查找步驟S123中訓練好的領域詞向量Vold(w)'以及步驟S125中得到的需求詞向量Vnew(w),使用RWMD算法對Vold(w)'于Vnew(w)進行相似ρ(w),判斷每個詞語的相似度ρ(w)是否合格,并統計出所有詞語相似度ρ(w)中的不合格率λ;
S132、判斷不合格率λ是否小于等于,若否則進行步驟S133;若是則進行步驟S134;
S133、調整S123中的負采樣數量和下采樣窗口大小,重新進行步驟S123至S125,重新獲得需求詞向量Vnew(w),然后返回步驟S131;
S134、計算結束。
3.根據權利要求2所述的一種領域化詞向量的優化方法,其特征在于,步驟S125包括以下步驟:
S1251、計算平滑后領域詞向量Vdomain(w):
S1252、w表示當前詞語,Cd表示領域語料庫,Cud表示無領域語料庫,當w∈Cd且w∈Cud時執行第一種融合模式;當w∈Cd且時執行第二種融合模式;當且w∈Cud時執行第三種融合模式;
第一種融合方式獲得Vnew(w)的計算公式為:
第二種融合方式獲得Vnew(w)的計算公式為:Vnew(w)=Vdomain(w);
第三種融合方式獲得Vnew(w)的計算公式為:Vnew(w)=Vundomain(w)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811257850.4/1.html,轉載請聲明來源鉆瓜專利網。





