[發(fā)明專(zhuān)利]一種基于互信息和關(guān)聯(lián)規(guī)則的文本特征提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710796425.1 | 申請(qǐng)日: | 2017-09-06 |
| 公開(kāi)(公告)號(hào): | CN107766323B | 公開(kāi)(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計(jì))人: | 朱全銀;嚴(yán)云洋;胡榮林;李翔;瞿學(xué)新;唐海波;趙陽(yáng);高陽(yáng);錢(qián)凱 | 申請(qǐng)(專(zhuān)利權(quán))人: | 淮陰工學(xué)院 |
| 主分類(lèi)號(hào): | G06F40/253 | 分類(lèi)號(hào): | G06F40/253;G06F16/00 |
| 代理公司: | 南京蘇高專(zhuān)利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 223005 江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 互信 關(guān)聯(lián) 規(guī)則 文本 特征 提取 方法 | ||
1.一種基于互信息和關(guān)聯(lián)規(guī)則的文本特征提取方法,其特征在于,包括如下步驟:
步驟一:定義文本數(shù)據(jù)集和停用詞集,并對(duì)文本數(shù)據(jù)集中每個(gè)文本分詞、2-Gram方法和過(guò)濾停用詞來(lái)預(yù)處理,得到預(yù)處理后的文本訓(xùn)練集;
步驟二:通過(guò)改進(jìn)的互信息方法提取預(yù)處理后的文本訓(xùn)練集中每個(gè)詞的特征值,并將特征值降序排列,篩選出前m個(gè)詞,得到初始的文本特征集;
步驟三:通過(guò)FP-Growth方法,計(jì)算步驟一中得出的預(yù)處理后的文本訓(xùn)練集中每個(gè)詞的關(guān)聯(lián)規(guī)則,并以關(guān)聯(lián)規(guī)則去除步驟二中得出的初始的文本特征集中冗余的特征,使用One-hot方法和關(guān)聯(lián)規(guī)則對(duì)文本向量化表示,得到每個(gè)文本的向量化集;
其中所述步驟一中得到文本訓(xùn)練集的具體步驟如下:
步驟1.1:定義文本數(shù)據(jù)集Txt={p1,p2,p3,……,pnum}和對(duì)應(yīng)Txt中每個(gè)文本類(lèi)別的標(biāo)簽集Y={y1,y2,y3,……,ynum},其中,第pi個(gè)文本ppi對(duì)應(yīng)的類(lèi)別為Ypi,num為文本數(shù)量,pi∈[1,num];
步驟1.2:定義文本停用詞集SWORD={swd1,swd2,swd3,……,swdsw};
步驟1.3:對(duì)Txt集中的每個(gè)文本分詞并過(guò)濾停用詞集SWORD,得到過(guò)濾停用詞后的文本集FTxt={ft1,ft2,ft3,……,ftnum},其中,ftfi={fw1,fw2,fw3,……,fws}為第fi篇文本pfi分詞過(guò)濾后的詞集,fi∈[1,s],s為FTxt中第fi篇文本的詞總數(shù),fw1,fw2,fw3,……,fws為詞集ftfi中的詞;
步驟1.4:采用2-Gram方法對(duì)FTxt集中每個(gè)文本處理,得到文本訓(xùn)練集Gtrain={gt1,gt2,gt3,……,gtnum},其中,gtgi={gw1,gw2,gw3,……,gwns}為詞集ftgi通過(guò)2-Gram方法處理后的Gram集,ns為文本訓(xùn)練集Gtrain中第gi篇中經(jīng)2-Gram方法處理后的總數(shù),gw1,gw2,gw3,……,gwns為Gram集gtgi中的詞,nss,
所述步驟二中得到初始文本特征集的具體步驟如下:
步驟2.1:將步驟1.4得到的預(yù)處理后文本訓(xùn)練集Gtrain中每個(gè)文本去除重復(fù)詞,得到詞集Term,詞集的數(shù)量為n,并從步驟1.1中定義的類(lèi)別標(biāo)簽集Y中,得到文本的類(lèi)別集C;
步驟2.2:通過(guò)公式計(jì)算數(shù)據(jù)集Term中每個(gè)詞的特征值,并計(jì)算特征詞Termi在類(lèi)別集C每個(gè)類(lèi)別下的特征值的方差其中,cn為第j個(gè)類(lèi)別Cj的文檔數(shù),num為總的文檔數(shù),a為含詞Termi且是類(lèi)別Cj的文檔數(shù)量,b為含Termi且不是Cj的文檔數(shù)量,為T(mén)ermi在每個(gè)類(lèi)別出現(xiàn)的次數(shù),為的方差,docn為含詞Termi的文檔總數(shù);
步驟2.3:根據(jù)特征值集W對(duì)特征詞集Term降序排列,選取前m個(gè)的特征,得到初始文本特征集SelT。
2.根據(jù)權(quán)利要求1所述的一種基于互信息和關(guān)聯(lián)規(guī)則的文本特征提取方法,其特征在于,所述步驟2.3中特征數(shù)量m的值設(shè)置為m≤0.3n。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于淮陰工學(xué)院,未經(jīng)淮陰工學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710796425.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運(yùn)行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲(chǔ)介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫(xiě)規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺(tái)
- 不規(guī)則圍棋





