[發明專利]一種基于并行化噪音消除的文本分類方法在審
| 申請號: | 201811328975.1 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109299275A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 邱寧佳;胡小娟;薛麗嬌;王鵬;楊華民 | 申請(專利權)人: | 長春理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 吉林長春新紀元專利代理有限責任公司 22100 | 代理人: | 王薇 |
| 地址: | 130022 吉林省長春市衛星路7*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 噪音數據 噪音特征 特征集 噪音消除 并行化 冗余 篩查 過濾 文本 詞頻 文本特征選擇 分類準確率 逆文檔頻率 主成分分析 比例降低 分類性能 歷史數據 目標類別 統計學習 分類器 算法 判定 刪除 噪音 檢測 引入 保留 | ||
本發明涉及一種基于并行化噪音消除的文本分類方法,其特征在于:首先在文本特征選擇過程中引入主成分分析方法對原始特征集進行冗余噪音特征的篩查;其次利用詞頻?逆文檔頻率方法進行第二階段的特征噪音數據篩查,形成文本的關鍵特征集;然后利用冗余噪音數據和錯誤噪音數據的歷史數據,對文本分類過程中出現的噪音數據進行統計學習過濾,實現錯誤噪音特征的過濾、檢測和刪除;最后利用所得關鍵特征集和保留下來的分類器判定文本的目標類別。該方法不僅能夠有效降低文本分類時間,而且能夠提高文本分類的噪音特征消除率和分類準確率,尤其是在噪音比例降低時,算法仍能保持良好且穩定的分類性能。
技術領域
本發明涉及一種基于并行化噪音消除的文本分類方法,通過使用機器學習方法中的主成分分析方法和詞頻-逆文檔頻率方法進行兩階段的關鍵特征選擇,實現特征選擇過程中的噪音消除和文本分類過程中的噪音消除,屬于機器學習和文本分類的交叉技術應用領域。
背景技術
特征選擇已是文本分類過程中一個公認的必經處理階段。特征選擇過程中的噪音消除和文本分類過程中的噪音消除,對于提升整體文本分類的分類性能和效率起著關鍵性的作用。但文本分類中的文本數據并不均是必需的,都含有或多或少的噪音數據(例如特征噪音、類別噪音、樣本噪音等)。這些噪音數據不僅增加了文本分類過程中的運算負擔,也降低了文本分類算法的準確率。近年來,針對特征選擇和文本分類技術的研究不斷增長,為文本分類性能的提升提供了多種解決方案。
目前,可以將噪音消除方法按照噪音消除的方式分為兩種:容噪方法和去噪方法。容噪方法是指在分類方法學習過程中增大文本集對噪音數據的敏感度,盡量做到忽視噪音數據。而去噪方法是指在分類方法學習過程中甄別噪音數據,并對噪音數據進行處理。
噪音消除方法由于應用方向不同而有針對各應用領域的改造,但在分類準確率上仍不能達到很理想的狀態,尤其是理想的海量文本分類準確率的實現問題。針對某一個文本來說,其對應的類別和分類器都是有限的,當從所有的分類器中接收類別輸出信息時,不相關的分類器輸出就認為是冗余的噪音數據。有效地處理文本分類中的噪音數據問題,是后期提高海量文本分類準確率的有力保障。
發明內容
本發明的目的在于提供一種基于并行化噪音消除的文本分類方法,首先能夠利用主成分分析方法通過線性變化計算原始特征集中每一個特征的重要度,刪除原始特征集中重要度最低的一部分冗余噪音數據,保留重要度大于重要度閾值的特征。其次,利用詞頻-逆文檔頻率方法進行特征二次篩選,選擇特征集中權重值較大的特征組成關鍵特征集。然后根據關鍵特征集對文本集進行類別判定,并根據歷史錯誤噪音特征對特征和類別匹配進行檢測。最終,利用MapReduce技術對特征選擇和文本分類過程進行并行化處理,減少計算時間,加快判定進程。
本發明的技術方案實現形式為:首先利用兩階段的特征篩選得到關鍵特征集,然后根據歷史錯誤特征集和所得關鍵特征集進行文本的類別判定,最后對所得文本類別進行了評估驗證;具體步驟為:
S1、將所給文本集T中的任一文本Ti進行文本預處理和文本表示,T={T1,T2,…,TM},M表示文本集中的文本總數,并建立其對應的原始特征集Fi;
S2、根據原始特征集Fi,基于主成分分析方法,計算每個特征fij的重要度,并進行首次特征篩選,得備用特征集Fi’;
S3、利用詞頻-逆文檔頻率方法將備用特征集Fi’進行二次特征篩選,構建最終的關鍵特征集KFi;
S4、根據關鍵特征集KFi計算文本的目標類別cj,并利用歷史錯誤特征集S檢測特征與類別不一致的情況,并按照淘汰閾值標記淘汰分類器;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長春理工大學,未經長春理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811328975.1/2.html,轉載請聲明來源鉆瓜專利網。





