日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]基于多隱層極限學(xué)習(xí)機的中文文本分類方法在審

專利信息
申請?zhí)枺?/td> 201710665695.9 申請日: 2017-08-07
公開(公告)號: CN107451278A 公開(公告)日: 2017-12-08
發(fā)明(設(shè)計)人: 龐皓明;冀俊忠 申請(專利權(quán))人: 北京工業(yè)大學(xué)
主分類號: G06F17/30 分類號: G06F17/30;G06F17/27;G06K9/62
代理公司: 北京思海天達知識產(chǎn)權(quán)代理有限公司11203 代理人: 沈波
地址: 100124 *** 國省代碼: 北京;11
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 基于 多隱層 極限 學(xué)習(xí)機 中文 文本 分類 方法
【權(quán)利要求書】:

1.基于多隱層極限學(xué)習(xí)機的中文文本分類方法,其特征在于:該方法包括以下步驟:

步驟一:數(shù)據(jù)預(yù)處理

選用中文語料庫作為數(shù)據(jù)集,在進行文本分類之前,需要對中文語料庫數(shù)據(jù)集的文本進行一系列預(yù)處理操作;首先為了正常顯示以及進行后續(xù)處理,需要將不同編碼方式的中文文本的編碼方式統(tǒng)一為utf-8格式;然后使用jieba分詞工具對中文文本進行分詞,將句子分割成單獨的詞;在中文文本中存在著許多沒有具體含義的停用詞進行去除,并且去除中文的符號和英文的字符;

步驟二:中文文本表示

中文文本數(shù)據(jù)經(jīng)過預(yù)處理后會將文本變成單獨的詞,因此選用詞作為中文文本的基本特征,進行中文文本特征單元的構(gòu)造;然后選用空間向量模型即詞袋模型作為文本的表示模型,使用TF-IDF作為空間向量模型中的權(quán)重;

步驟三:ML-ELM文本分類

多隱層極限學(xué)習(xí)機文本分類可以分成三個小步驟完成,包括文本進行文本降維、特征映射和文本分類;

文本降維:因為文本數(shù)據(jù)的維數(shù)較高,所以經(jīng)常需要降維處理;多隱層極限學(xué)習(xí)機通過減少多隱層極限學(xué)習(xí)機中第一個極限學(xué)習(xí)機自編碼器隱藏層節(jié)點的個數(shù),通過壓縮表達的方式對文本數(shù)據(jù)進行表示,以達到降維的目的;

特征映射:然后使用多隱層極限學(xué)習(xí)機的多隱層結(jié)構(gòu)對文本進行高層特征表示,提取出更高層次特征,對文本進行更好表示;

文本分類:文本數(shù)據(jù)在經(jīng)過降維和特征表示之后,將使用正則化極限學(xué)習(xí)機的方法對文本進行分類,分類的結(jié)果則是文本的類別。

2.根據(jù)權(quán)利要求1所述的基于多隱層極限學(xué)習(xí)機的中文文本分類方法,其特征在于:步驟一:數(shù)據(jù)預(yù)處理

復(fù)旦大學(xué)中文語料庫數(shù)據(jù)集分由訓(xùn)練樣本和測試樣本兩部分組成;訓(xùn)練樣本:9805篇,測試樣本:9833篇,分類結(jié)果為20個不同的文本類別;在進行處理之前需要將語料庫中的所有文本的格式都轉(zhuǎn)換成utf-8的格式;在轉(zhuǎn)換格式之后,首先使用jieba分詞工具下的全模式分詞方式對訓(xùn)練樣本和測試樣本進行切詞的處理,將文章的句子切分成一個個的短語和詞;然后需要使用正則表達式對文本數(shù)據(jù)進行“去噪”處理,包括去除文本中的標點符號、數(shù)字字符和英文字符等;因為在中文文本中含有許多沒有具體含義的停用詞,所以使用中文文本的停用詞庫,將訓(xùn)練樣本和測試樣本中的停用詞進行處理;文本在經(jīng)過以上的處理后,選取5000個最常用的詞作為表示訓(xùn)練樣本和測試樣本的文本特征;

步驟二:文本表示

在經(jīng)過數(shù)據(jù)預(yù)處理后的中文文本數(shù)據(jù)都是由詞構(gòu)成的,所以使用詞作為中文文本的基本特征;選擇使用向量空間模型對本文進行表示,空間向量模型也被稱作詞袋模型,是一種最常用的文本表示模型;在這一模型中,一篇文檔將被表示為一個特征向量,向量的維數(shù)代表了特征的個數(shù),也就是詞的個數(shù);對詞袋模型進行如下數(shù)學(xué)描述:N個樣本{xi,yi},i=1……N,其中xi、yi分別代表了第i個輸入文檔和輸出類別;對第i篇文檔xi={t1,w1;t2,w2;…;tk,wk;},tk代表某一特征項或詞,wk代表對應(yīng)特征的權(quán)重,k代表特征詞的個數(shù);第i篇文檔用特征空間中的一個向量(w1,w2,…wk)來進行表示;將很多篇文檔將組成一個二維矩陣,二維矩陣的維數(shù)分別代表了數(shù)據(jù)集中文檔的數(shù)量和文檔特征的數(shù)量;空間向量模型的權(quán)重wk將使用TF-IDF來進行表示,用來表示不同文本之間的語義性差異;TF-IDF是由項頻TF與逆文檔頻率IDF兩部分組成;項頻TF是使用特征詞在文本中出現(xiàn)次數(shù)除以文本的總詞數(shù),假設(shè)num(tk)為特征項tk在文檔xi中出現(xiàn)的次數(shù),count(xi)是文檔xi中的總詞數(shù),tk的項頻表示為:逆文檔頻率定義如下,N是訓(xùn)練集中文檔的個數(shù),df(tk)是訓(xùn)練集中包含特征項tk的文檔數(shù),tk的逆文檔頻率指數(shù)表示為:將項頻與逆文檔頻率指數(shù)結(jié)合在一起,得到了以下公式:tfidf(tk,xi)=tf(tk,xi)×idf(tk);通過TF-IDF表達不同文本的特征,從而區(qū)分不同文本之間語義性的差異;

步驟三:ML-ELM文本分類

在經(jīng)過上一步的文本表示之后,需要用多隱層極限學(xué)習(xí)機對中文文本進行分類;多隱層極限學(xué)習(xí)機模型由多個極限學(xué)習(xí)機自編碼器堆疊而成,是一個具有多個隱藏層的神經(jīng)網(wǎng)絡(luò);極限學(xué)習(xí)機自編碼器的模型是單隱層前饋神經(jīng)網(wǎng)絡(luò),輸入層和輸出層節(jié)點個數(shù)相同;根據(jù)隱藏層節(jié)點個數(shù)m和輸入層、輸出層節(jié)點個數(shù)n之間的關(guān)系,極限學(xué)習(xí)機自編碼器分為三種不同的表達方式;壓縮表達的方式m<n:表示將特征從高維空間轉(zhuǎn)換到低維空間;稀疏表達的方式m>n:表示將特征從低維空間轉(zhuǎn)換到高維空間;等維表達的方式m=n:表示不改變特征空間的維度,只提煉出更高效的特征表示;為了解決高維文本數(shù)據(jù)維數(shù)過高的問題,將通過極限學(xué)習(xí)機自編碼器壓縮表達的方式將高維文本數(shù)據(jù)轉(zhuǎn)換為低維文本數(shù)據(jù);因此減少多隱層極限學(xué)習(xí)機中第一個極限學(xué)習(xí)機自編碼器隱藏層節(jié)點的個數(shù),使多隱層極限學(xué)習(xí)機中的極限學(xué)習(xí)機自編碼器能夠用奇異值的方式對特征進行表達,來達到降維目的;

根據(jù)深度學(xué)習(xí)的思想,多隱層的神經(jīng)網(wǎng)絡(luò)將會提取出更高層次的特征,對數(shù)據(jù)能夠進行更加本質(zhì)的刻畫;多隱層極限學(xué)習(xí)機為了解決正則化極限學(xué)習(xí)機表達能力受限的問題;將中文文本數(shù)據(jù)進行降維處理之后,將逐層增加多隱層極限學(xué)習(xí)機隱藏層節(jié)點的個數(shù),增加模型的表示能力;多隱層極限學(xué)習(xí)機每一層的權(quán)值都通過極限學(xué)習(xí)機自編碼器得到的,通過計算得到的權(quán)值并賦值給多隱層極限學(xué)習(xí)機中的每一層;其中多隱層極限學(xué)習(xí)機模型中各隱藏層之間的關(guān)系表示為:Hj+1=g((βj+1)THj),Hj為多隱層極限學(xué)習(xí)機第j個隱藏層,βj+1為第j和j+1個隱藏層之間的權(quán)值矩陣,g(x)為激活函數(shù);多隱層極限學(xué)習(xí)機最后一層隱藏層的權(quán)值將通過正則化極限學(xué)習(xí)機的方法直接進行計算;

模型訓(xùn)練過程中的具體執(zhí)行過程:輸入為訓(xùn)練樣本{xi,yi},i=1……N,xi∈R,yi∈R,其中xi為第i個中文文本數(shù)據(jù),yi為對應(yīng)第i個文本的類別;輸出為各隱藏層節(jié)點的輸出矩陣β;首先需要設(shè)置多隱層極限學(xué)習(xí)機模型的網(wǎng)絡(luò)結(jié)構(gòu),包括隱藏層層數(shù)j=1……K、每一個隱藏層節(jié)點個數(shù)L和激活函數(shù)g(x),第一個隱藏層節(jié)點個數(shù)L1需要小于輸入層節(jié)點個數(shù)n,也就是小于文本數(shù)據(jù)中特征詞的個數(shù);并且設(shè)置每一個極限學(xué)習(xí)機自編碼的網(wǎng)絡(luò)結(jié)構(gòu),保證神經(jīng)網(wǎng)絡(luò)的輸入和輸出相等;設(shè)置極限學(xué)習(xí)機自編碼器隱藏層節(jié)點參數(shù):權(quán)值a∈R,閾值b∈R,滿足條正交件aTa=I,bTb=1;然后根據(jù)公式h=g(a*X+b)計算第一個極限自編碼器隱藏層的輸出矩陣H={h1,h2,…,hi}T;因為多隱層極限學(xué)習(xí)機中的第一個極限學(xué)習(xí)機自編碼器需要對數(shù)據(jù)進行降維,所以使用壓縮表達方式取得隱藏層和輸出層之間的權(quán)值矩陣(C為正則化系數(shù),X=[x1,x2,…,xN]T);極限學(xué)習(xí)機自編碼器通過奇異值分解的方式對特征進行壓縮表示,經(jīng)過奇異值分解后得到其中ui是HHT的特征向量,d是H的奇異值;H是被X投射的特征空間,極限學(xué)習(xí)機自編碼器的輸出權(quán)值β會通過奇異值去表達輸入數(shù)據(jù)的特征,使其通過無監(jiān)督學(xué)習(xí)的方式對特征進行選擇;雖然特征空間在經(jīng)過投射后維數(shù)會減少,但是也能對原有的信息進行表達,從而達到降維效果;

同時根據(jù)公式H1=g((β1)TX)計算多隱層極限學(xué)習(xí)機第一層的輸出矩陣H1,作為下一個ELM-AE的輸入;接下來將通過多隱層的結(jié)構(gòu)對文本數(shù)據(jù)進行表示;當2≤j≤K-1(j:隱藏層層數(shù))時循環(huán)執(zhí)行以下的步驟來計算第j層隱層輸出矩陣βj;根據(jù)公式h=g(a*Hn-1+b)計算得到當前極限學(xué)習(xí)機自編碼器隱藏層的輸出矩陣H,然后根據(jù)公式計算得到輸出權(quán)值β;最后根據(jù)公式Hj+1=g((βj+1)THj)計算第j+1層輸出矩陣,并作為第j+1個極限學(xué)習(xí)機自編碼器的輸入;

中文文本數(shù)據(jù)在進過降維和文本高維映射之后,將使用正則化極限學(xué)習(xí)機的方式直接求取多隱層極限學(xué)習(xí)機的最后一個隱藏層和輸出層之間的矩陣;根據(jù)公式取得矩陣β。

3.根據(jù)權(quán)利要求2所述的基于多隱層極限學(xué)習(xí)機的中文文本分類方法,其特征在于:步驟三總結(jié)的方法如下:

輸入:訓(xùn)練樣本{xi,yi},i=1……N,xi∈R,yi∈R

輸出:各隱藏層節(jié)點的輸出矩陣β

1)設(shè)置ML-ELM的網(wǎng)絡(luò)結(jié)構(gòu),包括每層隱藏層層數(shù)j=1……K、每一個隱藏層節(jié)點個數(shù)L和激活函數(shù)g(x),其中第一個隱藏層節(jié)點個數(shù)L1小于輸入層節(jié)點個數(shù)n;

2)設(shè)置ELM-AE的網(wǎng)絡(luò)結(jié)構(gòu),保證輸入和輸出相等;并隨機設(shè)置其隱藏層節(jié)點參數(shù):權(quán)值a∈R,閾值b∈R,aTa=I,bTb=1;

3)根據(jù)公式h=g(α1*X+b1)計算第一個ELM-AE隱藏層的輸出矩陣H={h1,h2,…,hi}T

4)根據(jù)公式計算得到第一個ELM-AE輸出權(quán)值β1

5)根據(jù)公式H1=g((β1)TX)計算ML-ELM第一層的輸出矩陣H1,作為下一個ELM-AE的輸入;

6)當2≤j≤K-1時循環(huán)執(zhí)行以下7)8)9)三步計算第j層隱層輸出矩陣βj

7)根據(jù)公式h=g(a*Hn-1+b)計算ELM-AE隱藏層的輸出矩陣H;

8)根據(jù)公式計算得到ELM-AE輸出權(quán)值β;

9)根據(jù)公式Hj+1=g((βj+1)THj)計算ML-ELM的輸出矩陣,作為下一個ELM-AE的輸入;

10)當j=K時,根據(jù)公式β=H+Y計算輸出層和最后一個隱藏層之間的權(quán)值矩陣β,其中H+為H的廣義逆矩陣。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710665695.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設(shè)計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關(guān)于我們 尋求報道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美高清性xxxx| 91人人爽人人爽人人精88v| 亚欧精品在线观看| 97人人添人人爽一区二区三区| 色妞妞www精品视频| 色综合欧美亚洲国产| 91福利试看| 国产男女乱淫视频高清免费 | 国产精品视频1区| 久久综合伊人77777麻豆| 国产在线卡一卡二| 国产麻豆91欧美一区二区| 午夜影院一区二区| 久久国产这里只有精品| 国产一区二区91| 欧美中文字幕一区二区| 91av一区二区三区| 色吊丝av中文字幕| 91精品夜夜| 亚洲自偷精品视频自拍| 日韩精品一区二区三区四区在线观看 | 99三级视频| 日韩精品一区二区三区免费观看| 国产精品96久久久| 高清在线一区二区| 丝袜美腿诱惑一区二区| 91一区在线| 淫片免费看| 91高跟紫色丝袜呻吟在线观看| 91久久精品在线| 日韩av在线播放观看| 国产亚洲精品精品国产亚洲综合 | 日韩av在线影视| 国产足控福利视频一区| 国产91热爆ts人妖系列| 在线视频不卡一区| 国产乱人激情h在线观看| 日本一区二区三区免费在线| 亚洲视频精品一区| 久久久久偷看国产亚洲87| 99精品在免费线偷拍| 日韩毛片一区| 精品91av| 一区二区三区欧美视频| 99久久婷婷国产精品综合| 国产全肉乱妇杂乱视频在线观看 | 一区二区国产精品| 午夜大片网| 丰满岳乱妇在线观看中字| 日本看片一区二区三区高清| 国产亚洲精品精品国产亚洲综合| 欧美高清视频一区二区三区| 亚洲精品www久久久| 国产精选一区二区| 91一区二区三区久久国产乱 | freexxxxxxx| 狠狠色噜噜狠狠狠四色米奇| 日韩精品免费看| 色婷婷久久一区二区三区麻豆| 日韩精品一区在线观看| 日韩精品福利片午夜免费观看| 日韩欧美中文字幕一区| sb少妇高潮二区久久久久| 中文字幕一区一区三区| 日本一区二区三区四区高清视频| 日韩欧美一区二区久久婷婷| 欧美一区二区免费视频| 狠狠色噜噜狠狠狠888奇米| 精品少妇一区二区三区免费观看焕| 狠狠色依依成人婷婷九月| 国产91丝袜在线熟| 中文字幕日韩精品在线| 精品国产乱码久久久久久影片| 日本一二三区视频在线| 99爱精品在线| 精品亚洲午夜久久久久91| 麻豆国产一区二区| 精品三级一区二区| 97精品久久人人爽人人爽| 日韩精品福利片午夜免费观看| 精品三级一区二区| 欧美一区久久| 91久久精品在线| 久久99精品久久久秒播| 黄色国产一区二区| 夜色av网站| 日本一区二区在线观看视频| 国产乱xxxxx国语对白| 96国产精品视频| 日本福利一区二区| 扒丝袜pisiwa久久久久| 大桥未久黑人强制中出| 李采潭无删减版大尺度| 妖精视频一区二区三区| 午夜黄色网址| 亚洲五码在线| 国产一卡二卡在线播放| 欧美性二区| 韩日av一区二区三区| 一级久久久| 综合在线一区| 日本三级不卡视频| 99riav3国产精品视频| 国产日韩欧美中文字幕| 国产97久久| 国产欧美一区二区三区在线播放| 国产精品香蕉在线的人| 一级黄色片免费网站| 神马久久av| 国产一卡在线| 国产第一区二区| 午夜黄色网址| 日韩国产不卡| 国产精品久久久视频| 国产在线视频二区| 国产精品乱码一区| 亚洲欧美一卡| 亚洲欧美一区二区三区1000| 日本一区二区三区电影免费观看| 91精品国产麻豆国产自产在线| 国产在线精品一区二区| 日本福利一区二区| 久久精品国产一区二区三区| 国产69精品久久| 日本午夜久久| 在线观看黄色91| 欧美黄色片一区二区| 久久免费视频一区二区| 色一情一乱一乱一区免费网站| 天天射欧美| 国产精品电影免费观看| 亚洲区日韩| 国产aⅴ一区二区| 国产精品一区在线播放| 欧美一区二区伦理片| 黄毛片在线观看| xxxxx色| 亚洲少妇一区二区三区| 午夜激情影院| www.久久精品视频| 思思久久96热在精品国产| 热久久一区二区| 国产另类一区| 狠狠插影院| 国产精品6699| 欧美精品一区二区性色| 日韩欧美国产中文字幕| 国产精品一区二区久久乐夜夜嗨 | 日日夜夜一区二区| 午夜看片网| 精品国产乱码久久久久久久久 | 欧美亚洲国产日韩| 91麻豆精品国产91久久久无限制版| 日本一区二区三区电影免费观看| 国产69精品久久久久999小说| 国产97在线看| 日韩精品福利片午夜免费观看| 国模精品免费看久久久| 99久久国产综合精品尤物酒店| 国内精品99| 国产精品禁18久久久久久| 日本美女视频一区二区| 国产亚洲精品久久久456| 欧美一区二区三区四区五区六区| 久久福利视频网| 国产精品电影一区| 国产91在线拍偷自揄拍 | 天干天干天啪啪夜爽爽99 | 狠狠躁狠狠躁视频专区| 免费a级毛片18以上观看精品| 国产精选一区二区| 麻豆精品国产入口| 精品99在线视频| 日韩美一区二区三区| 鲁一鲁一鲁一鲁一鲁一av| 高清在线一区二区| 午夜剧场a级片| 国产午夜精品一区二区三区在线观看 | 一区二区三区在线影院| 国产一区午夜| 国产伦精品一区二区三区电影| 91性高湖久久久久久久久_久久99| 亚洲欧美日韩精品suv| 国产69精品久久久久999天美| 国产乱码精品一区二区三区中文| 国产午夜精品一区二区三区最新电影 | 国产偷亚洲偷欧美偷精品| 午夜亚洲影院| 91久久国产视频| 亚洲少妇一区二区| 国产另类一区| 中文字幕制服丝袜一区二区三区| 国产1区2区视频| 日韩精品一区二区三区中文字幕| 2023国产精品自产拍在线观看| 亚洲va久久久噜噜噜久久0| 狠狠色噜噜狠狠狠888奇米| 久久免费精品国产| 中文字幕在线视频一区二区| 国产91九色在线播放| 日韩精品免费一区二区在线观看| 国偷自产中文字幕亚洲手机在线 | 欧美一区二区三区艳史| 日韩精品久久久久久久酒店| 男人的天堂一区二区| 久久久精品99久久精品36亚| 狠狠色丁香久久婷婷综合_中| 日韩夜精品精品免费观看| 2023国产精品久久久精品双| 欧美三级午夜理伦三级中视频 | 私人影院av| 欧洲在线一区| 性xxxxfreexxxxx交| 性夜影院在线观看| 久久九九国产精品| 午夜精品一区二区三区在线播放| 四虎国产精品永久在线国在线| 中文字幕一区2区3区| 91久久国语露脸精品国产高跟| 欧美精品一区二区久久久| 中文字幕av一区二区三区高| 色婷婷综合久久久中文一区二区| 国产精品视频久久久久久久| 国产精品一二三区免费| 亚洲精品久久久久久久久久久久久久 | 一本色道久久综合亚洲精品图片| 欧美日韩一区不卡| 国产免费一区二区三区四区| 51区亚洲精品一区二区三区| 久久久久久国产精品免费| 国产高清在线观看一区| 国产视频精品一区二区三区| 999偷拍精品视频| 狠狠色狠狠色很很综合很久久| 国产精品久久久久久久综合| 99国产超薄丝袜足j在线观看| 国产91久久久久久久免费| 欧美日韩激情一区| 国产日韩欧美精品| 午夜欧美影院| 狠狠色狠狠色综合系列| 欧美激情精品一区| 亚洲四区在线观看| 欧美一区二区三区久久| 精品国产免费一区二区三区| 中文av一区|