[發(fā)明專(zhuān)利]一種基于特征擴(kuò)展的在線短文本數(shù)據(jù)流分類(lèi)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911251229.1 | 申請(qǐng)日: | 2019-12-09 |
| 公開(kāi)(公告)號(hào): | CN111026846B | 公開(kāi)(公告)日: | 2021-08-17 |
| 發(fā)明(設(shè)計(jì))人: | 李培培;胡陽(yáng);胡學(xué)鋼 | 申請(qǐng)(專(zhuān)利權(quán))人: | 合肥工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06F16/33 | 分類(lèi)號(hào): | G06F16/33;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 安徽省合肥新安專(zhuān)利代理有限責(zé)任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 特征 擴(kuò)展 在線 文本 數(shù)據(jù)流 分類(lèi) 方法 | ||
1.一種基于特征擴(kuò)展的在線短文本數(shù)據(jù)流分類(lèi)方法,其特征是按照如下步驟進(jìn)行:
步驟1:根據(jù)外部語(yǔ)料庫(kù)構(gòu)建Word2vec模型,獲取詞向量集合Vec:
步驟1.1:根據(jù)滑動(dòng)窗口機(jī)制將給定的短文本數(shù)據(jù)流Stream={d1,d2,...,de,...,dE}按照時(shí)間劃分為T(mén)個(gè)數(shù)據(jù)塊集合,記為D={D1,D2,…,Dt,…,DT},其中,de表示所述短文本數(shù)據(jù)流Stream中第e個(gè)短文本;Dt表示所述短文本數(shù)據(jù)流Stream中t時(shí)刻的數(shù)據(jù)塊,e=1,2,…,E,t=1,2,…,T;
步驟1.2:從知識(shí)庫(kù)中為所述短文本數(shù)據(jù)流Stream獲取文本外部語(yǔ)料庫(kù),記為C′={d′1,d′2,...,d′m,...,d′M},m=1,2,...,M,其中,M表示所述文本外部語(yǔ)料庫(kù)C′的文本總數(shù),d′m表示第m個(gè)文本,并有Q表示所述第m個(gè)文本d′m中詞的個(gè)數(shù),表示所述第m個(gè)文本d′m中第q個(gè)詞,且滿足Vocab表示所述文本外部語(yǔ)料庫(kù)C′中所有不同詞的詞集合,且Vocab={word1,word2,...,wordz,...,wordZ},z=1,2,...,Z,Z表示所述詞集合Vocab中詞的總數(shù),wordz表示所述詞集合Vocab中第z個(gè)詞;令所述第z個(gè)詞wordz的詞向量記為Vec(wordz),從而得到所述詞集合Vocab對(duì)應(yīng)的詞向量集合Vec={Vec(word1),Vec(word2),…,Vec(wordz),…,Vec(wordZ)};
步驟1.3:利用skip-gram模型對(duì)所述詞向量集合Vec進(jìn)行更新,得到更新后的詞向量集合Vec′,并賦值給Vec;
步驟2:利用詞向量集合Vec向量化所述短文本數(shù)據(jù)流Stream并基于CNN模型進(jìn)行文本向量化擴(kuò)展:
步驟2.1:初始化t=0;定義并初始化t時(shí)刻概念漂移信號(hào)量Drift=0;定義并初始化概念漂移閾值Thr;
步驟2.2:獲取所述短文本數(shù)據(jù)流Stream中t時(shí)刻的數(shù)據(jù)塊Dt,并有:其中,N為所述t時(shí)刻數(shù)據(jù)塊Dt中的文本總數(shù),為所述t時(shí)刻數(shù)據(jù)塊Dt中第n個(gè)文本,并有表示所述t時(shí)刻數(shù)據(jù)塊Dt中第n個(gè)文本中第i個(gè)詞,為所述t時(shí)刻數(shù)據(jù)塊Dt中第n個(gè)文本的類(lèi)標(biāo)簽;
步驟2.3:從所述詞向量集合Vec中獲取所述t時(shí)刻數(shù)據(jù)塊Dt中第n個(gè)文本中第i個(gè)詞的詞向量從而得到所述t時(shí)刻數(shù)據(jù)塊Dt中第n個(gè)文本中所有詞的詞向量集合,表示為其中,I≤P,P表示所述短文本數(shù)據(jù)流Stream中短文本的最大詞數(shù),Vec(0j)為第j個(gè)全零向量,且1≤j≤P-I;
步驟2.4:根據(jù)步驟2.3,從而得到所述t時(shí)刻數(shù)據(jù)塊Dt的文本向量集合,表示為對(duì)所述t時(shí)刻數(shù)據(jù)塊Dt以每G個(gè)文本為一組進(jìn)行分組,則Vec(Dt)被分為R組,記為
且R=N/G;
步驟2.5:設(shè)置CNN模型中卷積核為Core,卷積核尺寸的長(zhǎng)和寬為Row×Col,步長(zhǎng)為rides,對(duì)所述t時(shí)刻數(shù)據(jù)塊Dt中的第n個(gè)文本的詞向量集合進(jìn)行卷積操作之后,得到((P-Row)/rides+1)×(E-Col+1)維的語(yǔ)義矩陣,并與所述詞向量集合合并,從而得到所述t時(shí)刻數(shù)據(jù)塊Dt中第n個(gè)文本的輸入表示從而得到所述t時(shí)刻數(shù)據(jù)塊Dt中所有的文本擴(kuò)展向量,表示為
步驟3:對(duì)擴(kuò)展后的文本向量構(gòu)建在線深度學(xué)習(xí)網(wǎng)絡(luò):
步驟3.1:定義當(dāng)前深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)為fr,神經(jīng)網(wǎng)絡(luò)的最大深度為Floor;定義當(dāng)前文本擴(kuò)展向量Vec′(Dt)的組數(shù)為r,并初始化fr=1,令r=1;
步驟3.2:針對(duì)所述t時(shí)刻數(shù)據(jù)塊Dt中的文本擴(kuò)展向量Vec′(Dt)構(gòu)建t時(shí)刻第fr層LSTM網(wǎng)絡(luò)LSTM_fr,設(shè)置神經(jīng)元的個(gè)數(shù)為Ofr;構(gòu)建第fr層全連接網(wǎng)絡(luò)Dense_fr,并設(shè)置神經(jīng)元的個(gè)數(shù)為H_fr;
步驟3.3:將fr+1賦值給fr,轉(zhuǎn)到步驟3.2,直至fr=Floor,從而完成深度學(xué)習(xí)網(wǎng)絡(luò)的構(gòu)建;
步驟3.4:將所述文本擴(kuò)展向量Vec′(Dt)中第r組文本擴(kuò)展向量輸入所述t時(shí)刻第一層LSTM網(wǎng)絡(luò)LSTM_1中,并得到中間輸出,記為其中,表示第r組文本擴(kuò)展向量中第g個(gè)文本擴(kuò)展向量的LSTM網(wǎng)絡(luò)中間輸出,并有:
式(1)中,ot表示所述t時(shí)刻LSTM網(wǎng)絡(luò)中神經(jīng)元需要輸出的信息;Ct是所述t時(shí)刻LSTM網(wǎng)絡(luò)中神經(jīng)元的狀態(tài)信息;tanh(·)是tanh激活函數(shù);并有:
式(2)中,σ(·)是sigmod激活函數(shù);為所述t時(shí)刻LSTM網(wǎng)絡(luò)神經(jīng)元中輸出門(mén)的權(quán)重;bo為所述輸出門(mén)的偏置項(xiàng);是t時(shí)刻第r組文本擴(kuò)展向量中第g個(gè)文本擴(kuò)展向量;
式(3)中,ft是所述t時(shí)刻LSTM網(wǎng)絡(luò)中神經(jīng)元遺忘門(mén)的輸出信息;是所述t時(shí)刻LSTM網(wǎng)絡(luò)中神經(jīng)元的輸入信息;it是所述t時(shí)刻LSTM網(wǎng)絡(luò)中神經(jīng)元輸入門(mén)的狀態(tài)信息;Ct-1是t-1時(shí)刻神經(jīng)元的狀態(tài)信息;并有:
式(4)中,分別為所述t時(shí)刻LSTM網(wǎng)絡(luò)神經(jīng)元中遺忘門(mén)、輸入門(mén)、狀態(tài)更新門(mén)對(duì)應(yīng)的權(quán)重;bf、bi、bc為遺忘門(mén)、輸入門(mén)、狀態(tài)更新門(mén)對(duì)應(yīng)的偏置項(xiàng);
步驟3.5:將LSTM_1網(wǎng)絡(luò)的中間輸出輸入所述第一層全連接網(wǎng)絡(luò)Dense_1中,得到對(duì)應(yīng)的輸出其中,表示第r組文本擴(kuò)展向量中第g個(gè)文本擴(kuò)展向量的全連接網(wǎng)絡(luò)Dense_1網(wǎng)絡(luò)輸出,且W_1t為所述t時(shí)刻的全連接網(wǎng)絡(luò)Dense_1對(duì)應(yīng)的權(quán)重;
步驟3.6:令fr=2;
步驟3.7:將第fr-1層LSTM網(wǎng)絡(luò)LSTM_fr-1的中間輸出輸入所述第fr層LSTM網(wǎng)絡(luò)LSTM_fr中,得到所述t時(shí)刻第fr層LSTM網(wǎng)絡(luò)LSTM_fr的中間輸出,表示為
步驟3.8:將第fr層LSTM網(wǎng)絡(luò)LSTM_fr網(wǎng)絡(luò)的中間輸出輸入所述第fr層全連接網(wǎng)絡(luò)Dense_fr,得到對(duì)應(yīng)的輸出其中表示第r組文本擴(kuò)展向量中第g個(gè)文本擴(kuò)展向量的全連接網(wǎng)絡(luò)Dense_fr網(wǎng)絡(luò)輸出,且W_frt為所述t時(shí)刻的第fr層全連接網(wǎng)絡(luò)Dense_fr對(duì)應(yīng)的權(quán)重;
步驟3.9:將fr+1賦值給fr,轉(zhuǎn)到步驟3.7,直至fr=Floor;
步驟3.10:利用式(7)將所述t時(shí)刻的Floor個(gè)全連接網(wǎng)絡(luò)Dense_1,Dense_2,...,Dense_fr,...,Dense_Floor的輸出進(jìn)行加權(quán)求和,得到所述t時(shí)刻擴(kuò)展文本向量的輸出
式(7)中,weight_1t,weight_2t,...,weight_frt,...,weight_Floort分別為所述t時(shí)刻的Floor個(gè)全連接網(wǎng)絡(luò)Dense_1,Dense_2,...,Dense_fr,...,Dense_Floor的輸出權(quán)重;
利用式(8)所示的對(duì)沖算法對(duì)輸出權(quán)重weight_frt進(jìn)行更新,得到t+1時(shí)刻全連接網(wǎng)絡(luò)的Dense_fr輸出權(quán)重weight_frt+1;從而得到t+1時(shí)刻Floor個(gè)全連接網(wǎng)絡(luò)Dense_1,Dense_2,...,Dense_fr,...,Dense_Floor的輸出權(quán)重:
式(8)中,β為對(duì)沖參數(shù),l(·)為對(duì)應(yīng)輸出的損失函數(shù);為第r組文本擴(kuò)展向量中第g個(gè)文本擴(kuò)展向量的類(lèi)標(biāo)簽;
步驟3.11:將r+1賦值給r,將t時(shí)刻數(shù)據(jù)塊Dt中的文本擴(kuò)展向量Vec′(Dt)中第r組輸入傳入第一層LSTM網(wǎng)絡(luò),轉(zhuǎn)到步驟3.10,直至r=R,從而最終得所述t時(shí)刻數(shù)據(jù)塊Dt的原始文本向量Vec(Dt)輸出為t時(shí)刻數(shù)據(jù)塊Dt中第n個(gè)文本擴(kuò)展向量的最終輸出;
步驟4:對(duì)所述t時(shí)刻LSTM網(wǎng)絡(luò)中神經(jīng)元引入概念漂移信號(hào)量并檢測(cè)短文本流的分布變化:
步驟4.1:按照步驟2對(duì)所述t+1時(shí)刻數(shù)據(jù)塊Dt+1進(jìn)行短文本擴(kuò)展與分組,得到分組后的擴(kuò)展文本向量表示并輸入所述深度學(xué)習(xí)網(wǎng)絡(luò)中,得到所述t+1時(shí)刻數(shù)據(jù)塊Dt+1的文本擴(kuò)展向量Vec(Dt+1)的預(yù)輸出為t+1時(shí)刻數(shù)據(jù)塊Dt+1中第n個(gè)文本擴(kuò)展向量的預(yù)輸出;
步驟4.2:計(jì)算所述t時(shí)刻數(shù)據(jù)塊Dt的輸出與所述t+1時(shí)刻數(shù)據(jù)塊Dt+1上的預(yù)輸出out't+1的歐式距離dis,若所述歐式距離dis小于概念漂移閾值Thr,則表示t時(shí)刻數(shù)據(jù)塊Dt未發(fā)生概念漂移,并設(shè)置所述t+1時(shí)刻概念漂移信號(hào)量Drift+1=0;否則,則表示t時(shí)刻數(shù)據(jù)塊Dt發(fā)生概念漂移,并設(shè)置所述t+1時(shí)刻概念漂移信號(hào)量Drift+1=a,a是常量;
步驟5:在線深度學(xué)習(xí)網(wǎng)絡(luò)的模型更新與短文本數(shù)據(jù)流的預(yù)測(cè):
步驟5.1:通過(guò)反向BP算法以及所述t+1時(shí)刻概念漂移信號(hào)Drift+1更新所述t時(shí)刻的LSTM網(wǎng)絡(luò)權(quán)重與全連接網(wǎng)絡(luò)權(quán)重W_1t,W_2t,...,W_frt,...,W_Floort;得到t+1時(shí)刻的LSTM網(wǎng)絡(luò)權(quán)重與全連接網(wǎng)絡(luò)權(quán)重W_1t+1,W_2t+1,...,W_frt+1,...,W_Floort+1;
步驟5.2:利用所述t+1時(shí)刻的LSTM網(wǎng)絡(luò)預(yù)測(cè)所述t+1時(shí)刻數(shù)據(jù)塊Dt+1的文本擴(kuò)展向量Vec(Dt+1),得到預(yù)測(cè)輸出其中,為t+1時(shí)刻數(shù)據(jù)塊Dt+1中第n個(gè)文本擴(kuò)展向量的最終輸出,且為L(zhǎng)維向量,為對(duì)應(yīng)類(lèi)標(biāo)簽的輸出概率,l=1,2,…,L,L表示類(lèi)標(biāo)簽總數(shù);
獲取最終輸出中最大值所在位置的類(lèi)標(biāo)簽,并作為所述t+1時(shí)刻數(shù)據(jù)塊Dt+1中第n個(gè)文本擴(kuò)展向量的預(yù)測(cè)類(lèi)標(biāo)簽,從而完成對(duì)所述t+1時(shí)刻數(shù)據(jù)塊Dt+1的預(yù)測(cè);
步驟5.3:將t+1賦值給t,轉(zhuǎn)到步驟4,直至t=T,從而完成對(duì)所述短文本數(shù)據(jù)流的數(shù)據(jù)塊集合D的分類(lèi)處理。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于合肥工業(yè)大學(xué),未經(jīng)合肥工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911251229.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:微帶濾波器
- 下一篇:基于圖卷積的建筑物模式識(shí)別方法
- 用于呈現(xiàn)在線實(shí)體在線狀態(tài)的系統(tǒng)和方法
- 提供web服務(wù)接入的在線系統(tǒng)和方法
- 定制在線圖標(biāo)
- 一種水質(zhì)在線檢測(cè)預(yù)處理裝置
- 在線測(cè)試學(xué)習(xí)方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種在線文檔的分頁(yè)方法、裝置、設(shè)備以及可讀介質(zhì)
- 一種基于web在線學(xué)習(xí)的資源訪問(wèn)平臺(tái)
- 一種在線學(xué)習(xí)系統(tǒng)
- 在線文檔提交方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 空調(diào)冷媒量確定方法、系統(tǒng)和可讀存儲(chǔ)介質(zhì)





