[發(fā)明專利]基于多隱層極限學(xué)習(xí)機的中文文本分類方法在審
| 申請?zhí)枺?/td> | 201710665695.9 | 申請日: | 2017-08-07 |
| 公開(公告)號: | CN107451278A | 公開(公告)日: | 2017-12-08 |
| 發(fā)明(設(shè)計)人: | 龐皓明;冀俊忠 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06K9/62 |
| 代理公司: | 北京思海天達知識產(chǎn)權(quán)代理有限公司11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多隱層 極限 學(xué)習(xí)機 中文 文本 分類 方法 | ||
1.基于多隱層極限學(xué)習(xí)機的中文文本分類方法,其特征在于:該方法包括以下步驟:
步驟一:數(shù)據(jù)預(yù)處理
選用中文語料庫作為數(shù)據(jù)集,在進行文本分類之前,需要對中文語料庫數(shù)據(jù)集的文本進行一系列預(yù)處理操作;首先為了正常顯示以及進行后續(xù)處理,需要將不同編碼方式的中文文本的編碼方式統(tǒng)一為utf-8格式;然后使用jieba分詞工具對中文文本進行分詞,將句子分割成單獨的詞;在中文文本中存在著許多沒有具體含義的停用詞進行去除,并且去除中文的符號和英文的字符;
步驟二:中文文本表示
中文文本數(shù)據(jù)經(jīng)過預(yù)處理后會將文本變成單獨的詞,因此選用詞作為中文文本的基本特征,進行中文文本特征單元的構(gòu)造;然后選用空間向量模型即詞袋模型作為文本的表示模型,使用TF-IDF作為空間向量模型中的權(quán)重;
步驟三:ML-ELM文本分類
多隱層極限學(xué)習(xí)機文本分類可以分成三個小步驟完成,包括文本進行文本降維、特征映射和文本分類;
文本降維:因為文本數(shù)據(jù)的維數(shù)較高,所以經(jīng)常需要降維處理;多隱層極限學(xué)習(xí)機通過減少多隱層極限學(xué)習(xí)機中第一個極限學(xué)習(xí)機自編碼器隱藏層節(jié)點的個數(shù),通過壓縮表達的方式對文本數(shù)據(jù)進行表示,以達到降維的目的;
特征映射:然后使用多隱層極限學(xué)習(xí)機的多隱層結(jié)構(gòu)對文本進行高層特征表示,提取出更高層次特征,對文本進行更好表示;
文本分類:文本數(shù)據(jù)在經(jīng)過降維和特征表示之后,將使用正則化極限學(xué)習(xí)機的方法對文本進行分類,分類的結(jié)果則是文本的類別。
2.根據(jù)權(quán)利要求1所述的基于多隱層極限學(xué)習(xí)機的中文文本分類方法,其特征在于:步驟一:數(shù)據(jù)預(yù)處理
復(fù)旦大學(xué)中文語料庫數(shù)據(jù)集分由訓(xùn)練樣本和測試樣本兩部分組成;訓(xùn)練樣本:9805篇,測試樣本:9833篇,分類結(jié)果為20個不同的文本類別;在進行處理之前需要將語料庫中的所有文本的格式都轉(zhuǎn)換成utf-8的格式;在轉(zhuǎn)換格式之后,首先使用jieba分詞工具下的全模式分詞方式對訓(xùn)練樣本和測試樣本進行切詞的處理,將文章的句子切分成一個個的短語和詞;然后需要使用正則表達式對文本數(shù)據(jù)進行“去噪”處理,包括去除文本中的標點符號、數(shù)字字符和英文字符等;因為在中文文本中含有許多沒有具體含義的停用詞,所以使用中文文本的停用詞庫,將訓(xùn)練樣本和測試樣本中的停用詞進行處理;文本在經(jīng)過以上的處理后,選取5000個最常用的詞作為表示訓(xùn)練樣本和測試樣本的文本特征;
步驟二:文本表示
在經(jīng)過數(shù)據(jù)預(yù)處理后的中文文本數(shù)據(jù)都是由詞構(gòu)成的,所以使用詞作為中文文本的基本特征;選擇使用向量空間模型對本文進行表示,空間向量模型也被稱作詞袋模型,是一種最常用的文本表示模型;在這一模型中,一篇文檔將被表示為一個特征向量,向量的維數(shù)代表了特征的個數(shù),也就是詞的個數(shù);對詞袋模型進行如下數(shù)學(xué)描述:N個樣本{xi,yi},i=1……N,其中xi、yi分別代表了第i個輸入文檔和輸出類別;對第i篇文檔xi={t1,w1;t2,w2;…;tk,wk;},tk代表某一特征項或詞,wk代表對應(yīng)特征的權(quán)重,k代表特征詞的個數(shù);第i篇文檔用特征空間中的一個向量(w1,w2,…wk)來進行表示;將很多篇文檔將組成一個二維矩陣,二維矩陣的維數(shù)分別代表了數(shù)據(jù)集中文檔的數(shù)量和文檔特征的數(shù)量;空間向量模型的權(quán)重wk將使用TF-IDF來進行表示,用來表示不同文本之間的語義性差異;TF-IDF是由項頻TF與逆文檔頻率IDF兩部分組成;項頻TF是使用特征詞在文本中出現(xiàn)次數(shù)除以文本的總詞數(shù),假設(shè)num(tk)為特征項tk在文檔xi中出現(xiàn)的次數(shù),count(xi)是文檔xi中的總詞數(shù),tk的項頻表示為:逆文檔頻率定義如下,N是訓(xùn)練集中文檔的個數(shù),df(tk)是訓(xùn)練集中包含特征項tk的文檔數(shù),tk的逆文檔頻率指數(shù)表示為:將項頻與逆文檔頻率指數(shù)結(jié)合在一起,得到了以下公式:tfidf(tk,xi)=tf(tk,xi)×idf(tk);通過TF-IDF表達不同文本的特征,從而區(qū)分不同文本之間語義性的差異;
步驟三:ML-ELM文本分類
在經(jīng)過上一步的文本表示之后,需要用多隱層極限學(xué)習(xí)機對中文文本進行分類;多隱層極限學(xué)習(xí)機模型由多個極限學(xué)習(xí)機自編碼器堆疊而成,是一個具有多個隱藏層的神經(jīng)網(wǎng)絡(luò);極限學(xué)習(xí)機自編碼器的模型是單隱層前饋神經(jīng)網(wǎng)絡(luò),輸入層和輸出層節(jié)點個數(shù)相同;根據(jù)隱藏層節(jié)點個數(shù)m和輸入層、輸出層節(jié)點個數(shù)n之間的關(guān)系,極限學(xué)習(xí)機自編碼器分為三種不同的表達方式;壓縮表達的方式m<n:表示將特征從高維空間轉(zhuǎn)換到低維空間;稀疏表達的方式m>n:表示將特征從低維空間轉(zhuǎn)換到高維空間;等維表達的方式m=n:表示不改變特征空間的維度,只提煉出更高效的特征表示;為了解決高維文本數(shù)據(jù)維數(shù)過高的問題,將通過極限學(xué)習(xí)機自編碼器壓縮表達的方式將高維文本數(shù)據(jù)轉(zhuǎn)換為低維文本數(shù)據(jù);因此減少多隱層極限學(xué)習(xí)機中第一個極限學(xué)習(xí)機自編碼器隱藏層節(jié)點的個數(shù),使多隱層極限學(xué)習(xí)機中的極限學(xué)習(xí)機自編碼器能夠用奇異值的方式對特征進行表達,來達到降維目的;
根據(jù)深度學(xué)習(xí)的思想,多隱層的神經(jīng)網(wǎng)絡(luò)將會提取出更高層次的特征,對數(shù)據(jù)能夠進行更加本質(zhì)的刻畫;多隱層極限學(xué)習(xí)機為了解決正則化極限學(xué)習(xí)機表達能力受限的問題;將中文文本數(shù)據(jù)進行降維處理之后,將逐層增加多隱層極限學(xué)習(xí)機隱藏層節(jié)點的個數(shù),增加模型的表示能力;多隱層極限學(xué)習(xí)機每一層的權(quán)值都通過極限學(xué)習(xí)機自編碼器得到的,通過計算得到的權(quán)值并賦值給多隱層極限學(xué)習(xí)機中的每一層;其中多隱層極限學(xué)習(xí)機模型中各隱藏層之間的關(guān)系表示為:Hj+1=g((βj+1)THj),Hj為多隱層極限學(xué)習(xí)機第j個隱藏層,βj+1為第j和j+1個隱藏層之間的權(quán)值矩陣,g(x)為激活函數(shù);多隱層極限學(xué)習(xí)機最后一層隱藏層的權(quán)值將通過正則化極限學(xué)習(xí)機的方法直接進行計算;
模型訓(xùn)練過程中的具體執(zhí)行過程:輸入為訓(xùn)練樣本{xi,yi},i=1……N,xi∈R,yi∈R,其中xi為第i個中文文本數(shù)據(jù),yi為對應(yīng)第i個文本的類別;輸出為各隱藏層節(jié)點的輸出矩陣β;首先需要設(shè)置多隱層極限學(xué)習(xí)機模型的網(wǎng)絡(luò)結(jié)構(gòu),包括隱藏層層數(shù)j=1……K、每一個隱藏層節(jié)點個數(shù)L和激活函數(shù)g(x),第一個隱藏層節(jié)點個數(shù)L1需要小于輸入層節(jié)點個數(shù)n,也就是小于文本數(shù)據(jù)中特征詞的個數(shù);并且設(shè)置每一個極限學(xué)習(xí)機自編碼的網(wǎng)絡(luò)結(jié)構(gòu),保證神經(jīng)網(wǎng)絡(luò)的輸入和輸出相等;設(shè)置極限學(xué)習(xí)機自編碼器隱藏層節(jié)點參數(shù):權(quán)值a∈R,閾值b∈R,滿足條正交件aTa=I,bTb=1;然后根據(jù)公式h=g(a*X+b)計算第一個極限自編碼器隱藏層的輸出矩陣H={h1,h2,…,hi}T;因為多隱層極限學(xué)習(xí)機中的第一個極限學(xué)習(xí)機自編碼器需要對數(shù)據(jù)進行降維,所以使用壓縮表達方式取得隱藏層和輸出層之間的權(quán)值矩陣(C為正則化系數(shù),X=[x1,x2,…,xN]T);極限學(xué)習(xí)機自編碼器通過奇異值分解的方式對特征進行壓縮表示,經(jīng)過奇異值分解后得到其中ui是HHT的特征向量,d是H的奇異值;H是被X投射的特征空間,極限學(xué)習(xí)機自編碼器的輸出權(quán)值β會通過奇異值去表達輸入數(shù)據(jù)的特征,使其通過無監(jiān)督學(xué)習(xí)的方式對特征進行選擇;雖然特征空間在經(jīng)過投射后維數(shù)會減少,但是也能對原有的信息進行表達,從而達到降維效果;
同時根據(jù)公式H1=g((β1)TX)計算多隱層極限學(xué)習(xí)機第一層的輸出矩陣H1,作為下一個ELM-AE的輸入;接下來將通過多隱層的結(jié)構(gòu)對文本數(shù)據(jù)進行表示;當2≤j≤K-1(j:隱藏層層數(shù))時循環(huán)執(zhí)行以下的步驟來計算第j層隱層輸出矩陣βj;根據(jù)公式h=g(a*Hn-1+b)計算得到當前極限學(xué)習(xí)機自編碼器隱藏層的輸出矩陣H,然后根據(jù)公式計算得到輸出權(quán)值β;最后根據(jù)公式Hj+1=g((βj+1)THj)計算第j+1層輸出矩陣,并作為第j+1個極限學(xué)習(xí)機自編碼器的輸入;
中文文本數(shù)據(jù)在進過降維和文本高維映射之后,將使用正則化極限學(xué)習(xí)機的方式直接求取多隱層極限學(xué)習(xí)機的最后一個隱藏層和輸出層之間的矩陣;根據(jù)公式取得矩陣β。
3.根據(jù)權(quán)利要求2所述的基于多隱層極限學(xué)習(xí)機的中文文本分類方法,其特征在于:步驟三總結(jié)的方法如下:
輸入:訓(xùn)練樣本{xi,yi},i=1……N,xi∈R,yi∈R
輸出:各隱藏層節(jié)點的輸出矩陣β
1)設(shè)置ML-ELM的網(wǎng)絡(luò)結(jié)構(gòu),包括每層隱藏層層數(shù)j=1……K、每一個隱藏層節(jié)點個數(shù)L和激活函數(shù)g(x),其中第一個隱藏層節(jié)點個數(shù)L1小于輸入層節(jié)點個數(shù)n;
2)設(shè)置ELM-AE的網(wǎng)絡(luò)結(jié)構(gòu),保證輸入和輸出相等;并隨機設(shè)置其隱藏層節(jié)點參數(shù):權(quán)值a∈R,閾值b∈R,aTa=I,bTb=1;
3)根據(jù)公式h=g(α1*X+b1)計算第一個ELM-AE隱藏層的輸出矩陣H={h1,h2,…,hi}T;
4)根據(jù)公式計算得到第一個ELM-AE輸出權(quán)值β1;
5)根據(jù)公式H1=g((β1)TX)計算ML-ELM第一層的輸出矩陣H1,作為下一個ELM-AE的輸入;
6)當2≤j≤K-1時循環(huán)執(zhí)行以下7)8)9)三步計算第j層隱層輸出矩陣βj;
7)根據(jù)公式h=g(a*Hn-1+b)計算ELM-AE隱藏層的輸出矩陣H;
8)根據(jù)公式計算得到ELM-AE輸出權(quán)值β;
9)根據(jù)公式Hj+1=g((βj+1)THj)計算ML-ELM的輸出矩陣,作為下一個ELM-AE的輸入;
10)當j=K時,根據(jù)公式β=H+Y計算輸出層和最后一個隱藏層之間的權(quán)值矩陣β,其中H+為H的廣義逆矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710665695.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 深層神經(jīng)網(wǎng)絡(luò)的辨別預(yù)訓(xùn)練
- 一種實現(xiàn)數(shù)據(jù)預(yù)讀的方法及裝置
- 一種多材料組合隱藏接縫的浮雕壁畫
- 基于多隱層極限學(xué)習(xí)機的中文文本分類方法
- 一種基于稀疏自編碼器的多視頻摘要方法
- 一種基于多隱層極限學(xué)習(xí)機的熱連軋軋制力預(yù)報方法
- 基于多尺度融合空洞卷積殘差網(wǎng)絡(luò)的大容量圖像隱寫方法
- 基于多隱層加權(quán)動態(tài)模型的工業(yè)高階動態(tài)過程軟測量方法
- 使用多通道融合模型處理答案的神經(jīng)問題生成方法及系統(tǒng)
- 基于深度特征編碼與混合高斯模型的燃機退化評估方法





