日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于word2vec模型的短文本數據流的快速增量式分類方法有效

專利信息
申請號: 201910169255.3 申請日: 2019-03-06
公開(公告)號: CN109918667B 公開(公告)日: 2023-03-24
發明(設計)人: 李培培;胡陽;胡學鋼 申請(專利權)人: 合肥工業大學
主分類號: G06F16/35 分類號: G06F16/35;G06F40/289;G06F18/24
代理公司: 安徽省合肥新安專利代理有限責任公司 34101 代理人: 陸麗莉;何梅生
地址: 230009 安*** 國省代碼: 安徽;34
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 word2vec 模型 文本 數據流 快速 增量 分類 方法
【權利要求書】:

1.一種基于word2vec模型的短文本數據流的快速增量式分類方法,其特征是按照如下步驟進行:

步驟1:構建word2vec模型:

步驟1.1:從知識庫中獲取文本外部語料庫,記為C1={d1,d2...dm...dM},m=1,2...M,其中,M表示所述文本外部語料庫C1的文本總數,dm表示第m個文本,并有I表示第m個文本dm中詞的個數,表示所述第m個文本dm中第i個詞,且Vocab表示文本外部語料庫C1中所有不同詞的詞集合,且Vocab={w1,w2....wz....wZ},z=1,2...Z,Z表示所述詞集合Vocab中詞的總個數,wz表示詞集合Vocab中第z個詞,且令第z個詞wz的詞向量記為Vec(wz),從而對得到詞向量集合Vec={Vec(w1),Vec(w2)…Vec(wz)…Vec(wZ)},并隨機初始化所述詞向量集合Vec;

步驟1.2:統計所述詞集合Vocab中所有詞在所述文本外部語料庫C1中出現次數,即詞頻,并將小于等于頻數下限F1或大于等于頻數上限F2的詞頻刪除,從而得到過濾后的詞頻集合;對所述過濾后的詞頻集合進行降序排序,并對排序后的詞頻集合構造一顆哈夫曼樹T;

步驟1.3:設置窗口大小為window,遍歷所述文本外部語料庫C1中第m個文本dm的每個詞,并獲取當前第i個詞的上下文

利用式(1)計算已知當前詞為時,預測其上下文的條件概率

式(1)中,u表示上下文中任意一個詞,表示已知當前詞為時,預測詞u的條件概率,并有:

式(2)中,H為哈夫曼樹T的高度,dh是從根節點到詞u所對應的葉子節點之間的路徑中第h個葉子節點對應于哈夫曼編碼中的第h位數;θh為根節點到詞u所對應的葉子節點之間的路徑中第h個葉子節點所對應的參數;

利用式(3)計算第i個詞的詞向量在參數θh的作用下出現第h位數dh的概率

式(3)中,σ(·)表示激勵函數;

步驟1.4:利用式(4)計算概率的最大似然函數

步驟1.5:對最大似然函數中的參數θh和詞向量分別求偏導,得到相應的梯度用于更新參數θh和詞向量從而得到更新后的參數θ′j和詞向量進而得到更新后的詞向量集合Vec′作為word2vec模型并賦值給原始的詞向量集合Vec;

步驟2:構建動態線性LR分類器組Model與全局類標簽集合L:

步驟2.1:定義時刻t,并初始化t=0;

步驟2.2:獲取任意數據流中t時刻數據塊其中,N為t時刻數據塊Dt中的文本的總個數,為t時刻的數據塊Dt中第n個文本,為t時刻數據塊Dt中第n個文本的類標簽,令Lt表示t時刻數據塊Dt的類標簽集合,并有:為t時刻類標簽集合Lt中第j個類標簽,j=1,2...J,J為t時刻數據塊Dt中不同類標簽的總個數;

步驟2.3將類標簽集合Lt放入全局類標簽集合L中,然后遍歷第n個文本中的每個詞,獲取每個詞的詞向量后求取平均值,并作為t時刻第n個文本的文本向量從而得到t時刻數據塊Dt中所有文本的文本向量,并替換t時刻數據塊Dt中各個文本,得到替換后的t時刻數據塊

步驟2.4:根據t時刻類標簽集合Lt,將替換后的t時刻數據塊Dt進行聚合,得到聚合后的t時刻數據塊其中,為聚合后的t時刻數據塊Dt中所有類標簽為的文本向量集合;

步驟2.5:創建并隨機初始化t時刻的第j個參數向量和從而得到t時刻參數向量集合和

步驟2.6:初始化j=1;

步驟2.7:將聚合后的t時刻數據塊Dt中所有類標簽為的文本向量集合的類標簽的值賦值為1,并作為正訓練樣本,其余的類標簽不為的文本向量集合相應的類標簽賦值給0,并作為負訓練樣本;

由所述正訓練樣本和負訓練樣本構成訓練文本向量集合其中

步驟2.8:當t0時,執行步驟2.10,否則執行步驟2.9;

步驟2.9:隨機初始化類標簽為的特征權重

步驟2.10:遍歷訓練文本向量集合Traint,并根據式(5)和(6)將t時刻第j個參數向量和更新為t+1時刻第j個參數向量和

式(5)和(6)中,為文本向量集合中t時刻第n個文本向量的優化迭代參數因子,為文本向量集合中t時刻第n個文本向量的損失函數對特征權重的導數,并有:

式(8)中,為對t時刻文本向量的預測概率,且

步驟2.11:將j+1賦值給j,返回步驟2.8,直到j>J為止,從而得到t+1時刻參數向量集合NPt+1和ZPt+1

步驟2.12:遍歷t+1時刻參數向量集合NPt+1和ZPt+1,并初始化j=1;

步驟2.13:利用式(10)計算t+1時刻第j個特征權重

式(10)中,λ1、λ2、α和β均為超參數,zgn(·)為向上取整函數;

步驟2.14:利用t+1時刻第j個特征權重構建線性LR分類器并將t+1時刻第j個分類器加入t+1時刻的動態線性LR分類器組Modelt+1中;

步驟2.15:將j+1賦值給j,并返回步驟2.13,直到j>J為止,從而得到t+1時刻的動態線性LR分類器組Modelt+1

步驟3:增量式更新全局標簽集合L,修改并增加t+1時刻的分類器組Modelt+1

步驟3.1:初始化t=1;

步驟3.2:根據步驟2.2至步驟2.3的處理方法,得到替換后的t時刻數據塊Dt

步驟3.3:遍歷t時刻數據塊Dt中第n個文本的文本向量并利用式(11)獲取文本向量的第j個類標簽的概率從而得到文本向量的類標簽概率集合

步驟3.4:將類標簽概率集合中最大概率所對應的類標簽作為文本向量的預測類標簽,記為從而得到t時刻數據集Dt中所有文本向量的預測類標簽集合

步驟3.5:利用式(12)計算t時刻分類器組Modelt對當前t時刻數據塊Dt的預測準確率Accuracyt

步驟3.6:根據步驟2.4的處理方法,得到聚合后的t時刻數據塊Dt

步驟3.7:定義總迭代次數為Inter,如果Accuracyt小于閾值λ,將初始化Inter=num;num為所設定的漂移權重;否則,初始化Inter=1;

步驟3.8:定義當前迭代次數為inter,并初始化inter=1;

步驟3.9:根據步驟2.6至步驟2.11的處理方法,得到t+1時刻的第inter次迭代的參數向量NPt+1,inter和ZPt+1,inter

步驟3.10:將NPt+1,inter和ZPt+1,inter分別賦值給NPt和ZPt

步驟3.11:將inter+1賦值給inter,并返回步驟3.9執行,直到iter>Iter為止,從而得到t+1時刻的第Inter次迭代的第j個參數向量和并賦值給t+1時刻參數向量集合NPt+1和ZPt+1

步驟3.12:遍歷集合t+1時刻參數向量集合NPt+1和ZPt+1,并初始化j=1;

步驟3.13:利用式(10)計算t+1時刻第j個特征權重

步驟3.14:如果t+1時刻第j個分類器則將賦值給從而更新t+1時刻的分類器組Modelt+1

如果t+1時刻第j個分類器則利用t+1時刻第j個特征權重構建線性LR分類器再將加入t+1時刻的分類器組Modelt+1中;

步驟3.15:將j+1賦值給j,并返回步驟3.13執行,直到j>J為止;從而得到t+1時刻的動態線性LR分類器組Modelt+1

步驟3.16:將t+1賦值給t后,返回步驟3.2,直至t>T為止,T為數據流的結束時刻;

步驟4:預測測試數據流,獲取未在詞集合Vocab中出現的新詞樣本集合S,構建詞向量模型Ce與詞向量擴展集合Vec-expand;

步驟4.1:定義詞向量擴展集合Vec-expand并初始化為空集,初始化t=0;

步驟4.2:獲取測試數據流中t時刻測試數據塊其中為t時刻的測試數據塊Dt′中第n個測試文本,且為為t時刻的第n個測試文本中第i個詞;

定義t時刻的新詞文本集合St并初始化為空集,然后遍歷t時刻的測試數據塊Dt′中所有測試文本,如果t時刻的第n個測試文本中所有詞均屬于詞集合Vocab,則不將第n個測試文本加入新詞文本集合St中,否則,將第n個測試文本加入新詞文本集合St;從而得到t時刻的更新后的新詞文本集合S′t以及對應的新詞集合Vocab′t

步驟4.3:如果t時刻的新詞詞集合文本集合St中測試文本總數大于閾值,則利用步驟1的處理方法對更新后的新詞文本集合S′t構建word2vec模型,并得到新詞向量集合其中,Vec*(w′y,t)表示t時刻新詞集合Vocab′t中第y個詞w′y,t的詞向量;y=1,2...Y,Y為新詞集合Vocab′t中詞的總個數;否則,執行步驟5;

步驟4.4:遍歷如果Vec*(w′y,t)∈Vec-expand,則將Vec*(w′y,t)賦值給Vec*(w′y,t+1),否則將Vec*(w′y,t)加入詞向量擴展集合Vec-expand中;

步驟5:獲取t時刻的測試數據塊D′t的類標簽強度:

步驟5.1:利用步驟3.2至步驟3.4的處理方法,得到t時刻的測試數據塊D′t中所有測試文本向量的類標簽概率集合和預測類標簽集合并組合為

其中表示t時刻的測試數據塊D′t中第n個測試文本預測的類標簽為的概率為

步驟5.2:獲取類標簽概率集合Pro′t中所有類標簽的占比集合其中為類標簽概率集合Pro′t中預測類標簽為的測試文本數除以類標簽概率集合Pro′t中總測試文本數的占比;

獲取類標簽概率集合Pro′t中所有預測類標簽的最大概率集合max_Prot={max_pro1,max_pro2...max_proj...max_proJ},其中max_proj為類標簽概率集合Pro′t中類標簽為所對應的最大概率;

步驟5.3:將presentt與max_Prot的乘積作為測試數據塊D′t的類標簽強度topict

步驟5.4:將t+1賦值給t后,返回步驟4.2,直至t>T′為止,T′為測試數據流的結束時刻;從而得到測試數據流的類標簽強度集合{topic1,topic2...topict,...topicT′}。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201910169255.3/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产不卡网站| 精品国产乱码久久久久久久久| 欧美一级久久精品| 国产精品国产三级国产专区52 | 国产91丝袜在线播放动漫| 亚洲精品456在线播放| 久久免费视频99| 中文字幕一区二区在线播放| 日本一区二区三区在线看| 亚洲制服丝袜中文字幕| 国产区一区| 久久人做人爽一区二区三区小说 | 精品91av| 日本一区二区三区在线看| 国内精品久久久久久久星辰影视| 欧美在线视频一二三区| 免费观看又色又爽又刺激的视频| 精品美女一区二区三区| 公乱妇hd在线播放bd| 日本道欧美一区二区aaaa| 96国产精品视频| 欧美日韩精品中文字幕| 97久久精品人人做人人爽| 99re热精品视频国产免费| 国产精品视频一区二区三| 国产在线不卡一| 亚洲一卡二卡在线| 手机看片国产一区| 免费在线观看国产精品| 日本一区二区三区免费视频| 日韩精品久久一区二区| 首页亚洲欧美制服丝腿| xxxx18hd护士hd护士| 欧美激情精品久久久久久免费| 国产精品一区久久人人爽| 色噜噜狠狠一区二区| 91久久精品国产91久久性色tv| 国产91视频一区| 欧美一区二区三区四区夜夜大片| 国产精品不卡一区二区三区| 国产91清纯白嫩初高中在线观看| 一区二区久久精品| 91精品美女| 国产精品1234区| 欧美精品五区| 狠狠色噜噜狠狠狠合久| 日本丰满岳妇伦3在线观看| 国产欧美视频一区二区| 久99久精品| 7799国产精品久久99| 欧美69精品久久久久久不卡| 亚洲国产欧洲综合997久久, | 亚洲国产视频一区二区三区| 欧美一区二区三区免费电影| 欧美日韩国产在线一区| 国内少妇偷人精品视频免费| 中文字幕一区二区三区日韩精品| 国产午夜亚洲精品羞羞网站| 欧美一区二区色| 麻豆视频免费播放| 国产剧情在线观看一区二区| 国产欧美精品va在线观看| 国产精品久久久久久久久久软件| 岛国精品一区二区| 国产在线卡一卡二| 欧美日韩综合一区| 午夜看大片| 国产日韩欧美在线影视| 国产一区二区三区在线电影| 少妇厨房与子伦免费观看| 亚洲精品日本久久一区二区三区| 精品国产一区在线| 亚洲欧美一卡二卡| 在线观看国产91| 国模精品免费看久久久| 激情久久综合网| 夜色av网站| 国产精品伦一区二区三区在线观看| 一区二区三区中文字幕| 精品一区二区三区中文字幕| 狠狠色狠狠综合久久| 久久精品国语| 激情久久一区二区| 国产乱人伦偷精品视频免下载| free性欧美hd另类丰满| 婷婷午夜影院| 久久精品国产精品亚洲红杏| 国产精品国产三级国产专区53| 国产精欧美一区二区三区久久久| 午夜肉伦伦| 中文字幕精品一区二区三区在线| 最新国产精品久久精品| 中文字幕一区二区三区乱码视频| 欧美精品国产一区二区| 欧美在线一区二区视频| 国产一区二区视频免费在线观看 | 亚洲乱强伦| 99爱精品视频| 亚洲欧美色一区二区三区| 日韩精品中文字幕久久臀| 久久九九亚洲| 国产一区二区三区网站| 国产精品电影一区二区三区| 精品国产一区二区三区免费| 欧美一区二区三区视频在线观看| 午夜爽爽视频| 国产经典一区二区| 国产99久久久久久免费看| 97久久超碰国产精品| 91精品国产91热久久久做人人| 国产视频二区| 最新国产精品久久精品| 精品国产区一区二| 欧美日韩一区在线视频| 一区二区三区国产欧美| 中文字幕一区二区三区免费| 亚洲精品乱码久久久久久写真| 5g影院天天爽入口入口| 国产欧美二区| 亚洲精品97久久久babes| 国产一区二区在| 农村妇女毛片精品久久| 亚洲欧洲国产伦综合| 男女午夜影院| 99久久精品免费看国产交换| 91国偷自产一区二区介绍| 午夜社区在线观看| 肥大bbwbbwbbw高潮| 国产精品伦一区二区三区视频| 99精品视频一区| 久久人做人爽一区二区三区小说| 狠狠色噜噜狠狠狠狠色综合久老司机| 少妇久久免费视频| 日本一区二区欧美| 国产精选一区二区| 强制中出し~大桥未久10在线播放| 日韩精品一区二区av| 免费91麻豆精品国产自产在线观看| 欧美一区二区综合| 色一情一乱一乱一区99av白浆| 日本黄页在线观看| 亚洲va国产| 亚洲欧美一区二区三区1000 | 亚洲精品日本久久一区二区三区 | 欧美一级久久久| 久久久久国产精品视频| 免费**毛片| 国产精品高潮呻吟视频| 久久久精品欧美一区二区| 亚洲欧美中日精品高清一区二区| 97人人模人人爽人人喊小说| 美日韩一区| 精品欧美一区二区精品久久小说 | 国产在线一二区| 欧美一级特黄乱妇高清视频| 亚洲欧美自拍一区| 欧美日韩一区电影| 99久久国产综合精品色伊| 国产区二区| 91精品国产91久久久| 欧美日韩国产一二| 国产一区亚洲一区| 国产精品久久人人做人人爽| 日韩精品999| 性欧美激情日韩精品七区| 日韩精品一区二区三区在线| 91福利视频免费观看| yy6080影院旧里番乳色吐息| 欧美一区二区三区爽大粗免费| 7799国产精品久久99| 大伊人av| 日韩欧美国产高清91| 国产免费区| 日本午夜久久| 欧美日韩三区二区| 综合久久色| 中文字幕一区二区三区乱码视频| 亚洲精品国产精品国产| 国产欧美日韩另类| 国产午夜伦理片| 国产69精品久久久久孕妇不能看| 国产区图片区一区二区三区| 久久第一区| 国产精品伦一区二区三区级视频频 | 国语精品一区 | 国产高清无套内谢免费| 国产精品国精产品一二三区| 国产一级片子| 美国三级日本三级久久99| 538国产精品一区二区免费视频| 亚洲精品少妇一区二区| 国产天堂第一区| 国产91久| 国产一区二区视频在线| 日韩欧美中文字幕精品| 欧美激情在线观看一区| 国产在线一卡| 精品久久综合1区2区3区激情| 91麻豆精品国产综合久久久久久| 欧美一区二区三区黄| 91麻豆精品国产91久久久久| 国产91丝袜在线| 久久精品综合| 久久一区二区精品| 一区二区三区在线影院| 97人人模人人爽人人喊小说| 久久精品国产亚洲7777| 精品国产伦一区二区三区免费| 国产精品96久久久久久久| 偷拍自中文字av在线| 国产电影精品一区| 日本一区二区免费电影| 国产农村妇女精品一区二区| 国产精品18久久久久白浆| 久久久久一区二区三区四区| 性生交片免费看片| 中文字幕一区一区三区| 欧美日韩国产午夜| 香蕉av一区二区三区| 亚洲精品456| 波多野结衣巨乳女教师| 性欧美1819sex性高播放| 久久久综合亚洲91久久98| 国产精品自拍在线观看| 国产精品爽到爆呻吟高潮不挺| 亚洲精品一品区二品区三品区| 97精品久久人人爽人人爽| 欧美精品国产一区| 99国产精品| 欧美精品第1页| 国产精品久久久久久久久久久久久久久久久久 | 欧美黑人巨大久久久精品一区| 精品国产91久久久久久久| 日韩一区免费在线观看| 久久久久久中文字幕| 日韩一区免费| 99久久www免费| 国产精品一区在线观看| 99久久国产综合精品尤物酒店| 日韩精品一区二区三区免费观看| 欧美日韩国产免费观看| 国产日本一区二区三区| 日本午夜影视| 久久aⅴ国产欧美74aaa| 久久影院国产精品| 午夜性电影|