[發(fā)明專利]一種基于并行化噪音消除的文本分類方法在審
| 申請?zhí)枺?/td> | 201811328975.1 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109299275A | 公開(公告)日: | 2019-02-01 |
| 發(fā)明(設(shè)計)人: | 邱寧佳;胡小娟;薛麗嬌;王鵬;楊華民 | 申請(專利權(quán))人: | 長春理工大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 吉林長春新紀(jì)元專利代理有限責(zé)任公司 22100 | 代理人: | 王薇 |
| 地址: | 130022 吉林省長春市衛(wèi)星路7*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本分類 噪音數(shù)據(jù) 噪音特征 特征集 噪音消除 并行化 冗余 篩查 過濾 文本 詞頻 文本特征選擇 分類準(zhǔn)確率 逆文檔頻率 主成分分析 比例降低 分類性能 歷史數(shù)據(jù) 目標(biāo)類別 統(tǒng)計學(xué)習(xí) 分類器 算法 判定 刪除 噪音 檢測 引入 保留 | ||
1.一種基于并行化噪音消除的文本分類方法,首先利用兩階段的特征篩選得到關(guān)鍵特征集,然后根據(jù)歷史錯誤特征集和所得關(guān)鍵特征集進(jìn)行文本的類別判定,最后對所得文本類別進(jìn)行了評估驗證;具體步驟為:
S1、將所給文本集T中的任一文本Ti進(jìn)行文本預(yù)處理和文本表示,T={T1,T2,…,TM},M表示文本集中的文本總數(shù),并建立其對應(yīng)的原始特征集Fi;
S2、根據(jù)原始特征集Fi,基于主成分分析方法,計算每個特征fij的重要度,并進(jìn)行首次特征篩選,得備用特征集Fi’;
S3、利用詞頻-逆文檔頻率方法將備用特征集Fi’進(jìn)行二次特征篩選,構(gòu)建最終的關(guān)鍵特征集KFi;
S4、根據(jù)關(guān)鍵特征集KFi計算文本的目標(biāo)類別cj,并利用歷史錯誤特征集S檢測特征與類別不一致的情況,并按照淘汰閾值標(biāo)記淘汰分類器;
S5、輸出目標(biāo)類別cj和歷史錯誤特征集S。
2.根據(jù)權(quán)利要求1所述的一種基于并行化噪音消除的文本分類方法,其特征在于所述的步驟S1具體包括:
S11、去除文本標(biāo)記,進(jìn)行詞分割;
S12、去除刪除停用詞;
S13、建立原始特征集Fi。
3.根據(jù)權(quán)利要求1所述的一種基于并行化噪音消除的文本分類方法,其特征在于所述的步驟S2包括:
S21、將原始特征集符號化為Fi={fi1,fi2,…,fiN},N表示特征集中的特征總數(shù),其中fij表示任一特征,1≤i≤M,1≤j≤N;
S22、設(shè)定原始特征集Fi為一個列向量A=(fi1,fi2,…,fiN)T,計算向量A的協(xié)方差矩陣Z=AAT,并求解A對應(yīng)的特征值λj和特征向量pj;
S23、組織Map函數(shù)為:Map<Key:λj+pj+fij,Value:principalvalue>;
S24、組織Reduce函數(shù)為:Reduce<Key:λj+pj+fij,Value:principalvalue>;
S25、取累積貢獻(xiàn)率取前k(1≤k≤N)個特征組成備用特征集Fi’,F(xiàn)i’={fi1,fi2,…,fik},1≤k≤N。
4.根據(jù)權(quán)利要求1所述的一種基于并行化噪音消除的文本分類方法,其特征在于所述的步驟S3包括:
S31、根據(jù)如下公式計算備用特征集Fi’中的各個特征的權(quán)重值;
其中,tfi,j表示特征i在文本j中的詞頻,mi表示文本集中包含特征i的文本個數(shù),M是指文本集中的文本總數(shù);
S32、組織Map函數(shù)為:Map<Key:tfij+idfj+fij,Value:tfidfvalue>;
S33、組織Reduce函數(shù)為:Reduce<Key:tfij+idfj+fij,Value:tfidfvalue>;
S34、得所有特征的權(quán)重值,并將權(quán)重值大于權(quán)重閾值的特征放入關(guān)鍵特征集KFi中,實驗中權(quán)重閾值設(shè)定為最高權(quán)重值的20%。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于長春理工大學(xué),未經(jīng)長春理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811328975.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種續(xù)至波衰減處理方法及裝置
- 社區(qū)噪音控制方法、裝置、終端和計算機(jī)可讀存儲介質(zhì)
- 設(shè)備的噪音分析方法、裝置、存儲介質(zhì)和系統(tǒng)
- 一種檢測硬盤多部位受噪音沖擊大小的裝置、方法及系統(tǒng)
- 一種基于遠(yuǎn)程監(jiān)控的設(shè)備數(shù)據(jù)異常管理系統(tǒng)及方法
- 基于區(qū)塊鏈的噪音感知方法、用戶終端、設(shè)備及介質(zhì)
- 一種基于遠(yuǎn)程監(jiān)控的設(shè)備數(shù)據(jù)異常管理方法
- 一種噪音模擬方法、系統(tǒng)、終端以及存儲介質(zhì)
- 基于設(shè)備的工作數(shù)據(jù)獲取方法、裝置以及電子設(shè)備
- 主動降噪裝置及方法





