[發明專利]基于word2vec模型的短文本數據流的快速增量式分類方法有效

申請號：	201910169255.3	申請日：	2019-03-06
公開（公告）號：	CN109918667B	公開（公告）日：	2023-03-24
發明（設計）人：	李培培;胡陽;胡學鋼	申請（專利權）人：	合肥工業大學
主分類號：	G06F16/35	分類號：	G06F16/35;G06F40/289;G06F18/24
代理公司：	安徽省合肥新安專利代理有限責任公司 34101	代理人：	陸麗莉;何梅生
地址：	230009 安***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于 word2vec 模型文本數據流快速增量分類方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于word2vec模型的短文本數據流的快速增量式分類方法，其特征是按照如下步驟進行：

步驟1：構建word2vec模型：

步驟1.1：從知識庫中獲取文本外部語料庫，記為C¹＝{d₁,d₂...d_m...d_M}，m＝1,2...M，其中，M表示所述文本外部語料庫C¹的文本總數，d_m表示第m個文本，并有I表示第m個文本d_m中詞的個數，表示所述第m個文本d_m中第i個詞，且Vocab表示文本外部語料庫C¹中所有不同詞的詞集合，且Vocab＝{w₁,w₂....w_z....w_Z}，z＝1,2...Z，Z表示所述詞集合Vocab中詞的總個數，w_z表示詞集合Vocab中第z個詞，且令第z個詞w_z的詞向量記為Vec(w_z)，從而對得到詞向量集合Vec＝{Vec(w₁),Vec(w₂)…Vec(w_z)…Vec(w_Z)}，并隨機初始化所述詞向量集合Vec；

步驟1.2：統計所述詞集合Vocab中所有詞在所述文本外部語料庫C¹中出現次數，即詞頻，并將小于等于頻數下限F₁或大于等于頻數上限F₂的詞頻刪除，從而得到過濾后的詞頻集合；對所述過濾后的詞頻集合進行降序排序，并對排序后的詞頻集合構造一顆哈夫曼樹T；

步驟1.3：設置窗口大小為window，遍歷所述文本外部語料庫C¹中第m個文本d_m的每個詞，并獲取當前第i個詞的上下文

利用式(1)計算已知當前詞為時，預測其上下文的條件概率

式(1)中，u表示上下文中任意一個詞，表示已知當前詞為時，預測詞u的條件概率，并有：

式(2)中，H為哈夫曼樹T的高度，d_h是從根節點到詞u所對應的葉子節點之間的路徑中第h個葉子節點對應于哈夫曼編碼中的第h位數；θ_h為根節點到詞u所對應的葉子節點之間的路徑中第h個葉子節點所對應的參數；

利用式(3)計算第i個詞的詞向量在參數θ_h的作用下出現第h位數d_h的概率

式(3)中，σ(·)表示激勵函數；

步驟1.4：利用式(4)計算概率的最大似然函數

步驟1.5：對最大似然函數中的參數θ_h和詞向量分別求偏導，得到相應的梯度用于更新參數θ_h和詞向量從而得到更新后的參數θ′_j和詞向量進而得到更新后的詞向量集合Vec′作為word2vec模型并賦值給原始的詞向量集合Vec；

步驟2：構建動態線性LR分類器組Model與全局類標簽集合L：

步驟2.1：定義時刻t，并初始化t＝0；

步驟2.2：獲取任意數據流中t時刻數據塊其中，N為t時刻數據塊D_t中的文本的總個數，為t時刻的數據塊D_t中第n個文本，為t時刻數據塊D_t中第n個文本的類標簽，令L_t表示t時刻數據塊D_t的類標簽集合，并有：為t時刻類標簽集合L_t中第j個類標簽，j＝1,2...J，J為t時刻數據塊D_t中不同類標簽的總個數；

步驟2.3將類標簽集合L_t放入全局類標簽集合L中，然后遍歷第n個文本中的每個詞，獲取每個詞的詞向量后求取平均值，并作為t時刻第n個文本的文本向量從而得到t時刻數據塊D_t中所有文本的文本向量，并替換t時刻數據塊D_t中各個文本，得到替換后的t時刻數據塊

步驟2.4：根據t時刻類標簽集合L_t，將替換后的t時刻數據塊D_t進行聚合，得到聚合后的t時刻數據塊其中，為聚合后的t時刻數據塊D_t中所有類標簽為的文本向量集合；

步驟2.5：創建并隨機初始化t時刻的第j個參數向量和從而得到t時刻參數向量集合和

步驟2.6：初始化j＝1；

步驟2.7：將聚合后的t時刻數據塊D_t中所有類標簽為的文本向量集合的類標簽的值賦值為1，并作為正訓練樣本，其余的類標簽不為的文本向量集合相應的類標簽賦值給0，并作為負訓練樣本；

由所述正訓練樣本和負訓練樣本構成訓練文本向量集合其中

步驟2.8：當t0時，執行步驟2.10，否則執行步驟2.9；

步驟2.9：隨機初始化類標簽為的特征權重

步驟2.10：遍歷訓練文本向量集合Train^t，并根據式(5)和(6)將t時刻第j個參數向量和更新為t+1時刻第j個參數向量和

式(5)和(6)中，為文本向量集合中t時刻第n個文本向量的優化迭代參數因子，為文本向量集合中t時刻第n個文本向量的損失函數對特征權重的導數，并有：

式(8)中，為對t時刻文本向量的預測概率，且

步驟2.11：將j+1賦值給j，返回步驟2.8，直到j＞J為止，從而得到t+1時刻參數向量集合NP^t+1和ZP^t+1；

步驟2.12：遍歷t+1時刻參數向量集合NP^t+1和ZP^t+1，并初始化j＝1；

步驟2.13：利用式(10)計算t+1時刻第j個特征權重

式(10)中，λ₁、λ₂、α和β均為超參數，zgn(·)為向上取整函數；

步驟2.14：利用t+1時刻第j個特征權重構建線性LR分類器并將t+1時刻第j個分類器加入t+1時刻的動態線性LR分類器組Model^t+1中；

步驟2.15：將j+1賦值給j，并返回步驟2.13，直到j＞J為止，從而得到t+1時刻的動態線性LR分類器組Model^t+1為

步驟3：增量式更新全局標簽集合L，修改并增加t+1時刻的分類器組Model^t+1；

步驟3.1：初始化t＝1；

步驟3.2：根據步驟2.2至步驟2.3的處理方法，得到替換后的t時刻數據塊D_t；

步驟3.3：遍歷t時刻數據塊D_t中第n個文本的文本向量并利用式(11)獲取文本向量的第j個類標簽的概率從而得到文本向量的類標簽概率集合

步驟3.4：將類標簽概率集合中最大概率所對應的類標簽作為文本向量的預測類標簽，記為從而得到t時刻數據集D_t中所有文本向量的預測類標簽集合

步驟3.5：利用式(12)計算t時刻分類器組Model^t對當前t時刻數據塊D_t的預測準確率Accuracy_t：

步驟3.6：根據步驟2.4的處理方法，得到聚合后的t時刻數據塊D_t；

步驟3.7：定義總迭代次數為Inter，如果Accuracy_t小于閾值λ，將初始化Inter＝num；num為所設定的漂移權重；否則，初始化Inter＝1；

步驟3.8：定義當前迭代次數為inter，并初始化inter＝1；

步驟3.9：根據步驟2.6至步驟2.11的處理方法，得到t+1時刻的第inter次迭代的參數向量NP^t+1,inter和ZP^t+1,inter；

步驟3.10：將NP^t+1,inter和ZP^t+1,inter分別賦值給NP^t和ZP^t；

步驟3.11：將inter+1賦值給inter，并返回步驟3.9執行，直到iter＞Iter為止，從而得到t+1時刻的第Inter次迭代的第j個參數向量和并賦值給t+1時刻參數向量集合NP^t+1和ZP^t+1；

步驟3.12：遍歷集合t+1時刻參數向量集合NP^t+1和ZP^t+1，并初始化j＝1；

步驟3.13：利用式(10)計算t+1時刻第j個特征權重

步驟3.14：如果t+1時刻第j個分類器則將賦值給從而更新t+1時刻的分類器組Model^t+1；

如果t+1時刻第j個分類器則利用t+1時刻第j個特征權重構建線性LR分類器再將加入t+1時刻的分類器組Model^t+1中；

步驟3.15：將j+1賦值給j，并返回步驟3.13執行，直到j＞J為止；從而得到t+1時刻的動態線性LR分類器組Model^t+1為

步驟3.16：將t+1賦值給t后，返回步驟3.2，直至t＞T為止，T為數據流的結束時刻；

步驟4：預測測試數據流，獲取未在詞集合Vocab中出現的新詞樣本集合S，構建詞向量模型C^e與詞向量擴展集合Vec-expand；

步驟4.1：定義詞向量擴展集合Vec-expand并初始化為空集，初始化t＝0；

步驟4.2：獲取測試數據流中t時刻測試數據塊其中為t時刻的測試數據塊D_t′中第n個測試文本，且為為t時刻的第n個測試文本中第i個詞；

定義t時刻的新詞文本集合S^t并初始化為空集，然后遍歷t時刻的測試數據塊D_t′中所有測試文本，如果t時刻的第n個測試文本中所有詞均屬于詞集合Vocab，則不將第n個測試文本加入新詞文本集合S^t中，否則，將第n個測試文本加入新詞文本集合S^t；從而得到t時刻的更新后的新詞文本集合S′^t以及對應的新詞集合Vocab′^t；

步驟4.3：如果t時刻的新詞詞集合文本集合S^t中測試文本總數大于閾值，則利用步驟1的處理方法對更新后的新詞文本集合S′^t構建word2vec模型，并得到新詞向量集合其中，Vec^*(w′_y,t)表示t時刻新詞集合Vocab′^t中第y個詞w′_y,t的詞向量；y＝1,2...Y，Y為新詞集合Vocab′^t中詞的總個數；否則，執行步驟5；

步驟4.4：遍歷如果Vec^*(w′_y,t)∈Vec-expand，則將Vec^*(w′_y,t)賦值給Vec^*(w′_y,t+1)，否則將Vec^*(w′_y,t)加入詞向量擴展集合Vec-expand中；

步驟5：獲取t時刻的測試數據塊D′_t的類標簽強度：

步驟5.1：利用步驟3.2至步驟3.4的處理方法，得到t時刻的測試數據塊D′_t中所有測試文本向量的類標簽概率集合和預測類標簽集合并組合為

其中表示t時刻的測試數據塊D′_t中第n個測試文本預測的類標簽為的概率為

步驟5.2：獲取類標簽概率集合Pro′^t中所有類標簽的占比集合其中為類標簽概率集合Pro′^t中預測類標簽為的測試文本數除以類標簽概率集合Pro′^t中總測試文本數的占比；

獲取類標簽概率集合Pro′^t中所有預測類標簽的最大概率集合max_Pro^t＝{max_pro₁,max_pro₂...max_pro_j...max_pro_J}，其中max_pro_j為類標簽概率集合Pro′^t中類標簽為所對應的最大概率；

步驟5.3：將present^t與max_Pro^t的乘積作為測試數據塊D′_t的類標簽強度topic^t；

步驟5.4：將t+1賦值給t后，返回步驟4.2，直至t＞T′為止，T′為測試數據流的結束時刻；從而得到測試數據流的類標簽強度集合{topic₁,topic₂...topic_t,...topic_T′}。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學，未經合肥工業大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910169255.3/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種基于神經網絡的中文標點符號添加方法
下一篇：基于區塊鏈的信用信息管理方法、裝置、設備及存儲介質

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】