[發明專利]一種文本分類方法在審
| 申請號: | 201810238364.1 | 申請日: | 2018-03-22 |
| 公開(公告)號: | CN108509552A | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 韋靈;倪志平;黎偉強;崔亞楠;胡艷華 | 申請(專利權)人: | 廣西科技大學鹿山學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京君恒知識產權代理事務所(普通合伙) 11466 | 代理人: | 譚月萍;黃啟行 |
| 地址: | 545616 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 文本 指標集 權重 預處理 矩陣 歸一化處理 分類矩陣 分類模型 分類指標 篩選指標 提取特征 指標矩陣 特征詞 分類 分詞 歸類 去除 篩選 更新 | ||
本發明提供了一種文本分類方法,屬于文本分類領域,具體包括如下步驟:從文件庫選取若干篇文章篩選出文本的指標集,并將指標集進行歸類劃分為不同的指標庫。對指標庫進行歸一化處理得到文本分類指標矩陣。選取需分類的文本,對文本進行預處理,提取特征詞,對文本進行分詞和分字處理,去除中性詞。計算特征詞的權重值;根據權重值選取本分類指標矩陣對詞和字進行文本分類處理,完成文本分類。本發明通過根據現有已經分類的文本進行篩選指標集,并根據指標集進行劃分指標庫,同時計算指標庫的在不同文本中權重值,再進行列出分類矩陣,從而使得分類模型更加準確更加好,同時在前期通過人為的判斷進行更新指標庫。
技術領域
本發明涉及文本分類領域,特別地,涉及一種文本分類方法。
背景技術
隨著網絡技術的快速發展,海量的信息資源以文本的形式存在。人們迫切的希望能從爆炸式的信息浪潮中快速有效的找到自己感興趣的內容。文本分類作為信息處理的重要研究方向,是解決文本信息發現的常用方法。在文本分類的過程中,關鍵詞的權重起到決定性的作用,它能快速反映一篇文檔主題內容或與文檔所在領域高度相關的詞語,幫助人們在搜尋所需的信息時能夠迅速地定位到相應的文檔。目前獲取關鍵詞或特征詞的方式有4種:(1)用映射或變換的方法把原始特征變換為較少的新特征;(2)從原始特征中挑選出一些最具代表性的特征;(3)根據專家的知識挑選最有影響的特征;(4)用數學的方法進行選取,找出最具分類信息的特征,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動分類挖掘系統的應用。
基于此,現提供一種基于改進的TFIDF算法的文本分類的方法,該方法結合文本分類的實際情況,結合傳統的特征詞權重的計算方法,分析了傳統TF-IDF算法在特征詞權重計算上的不足,即傳統的TFIDF算沒有考慮特征詞在類內和內間的分布,導致一些區分度不強的特征詞賦予了較大的權重。針對傳統的TFIDF算法的不足,結合特征詞權重對文本分類的實際影響,本發明對傳統TFIDF算法公式進行了修改,剔除干擾特征性在內間的影響,同時加入了類內離散度的概念,實現了文本分類精確度的要求。
發明內容
為了解決背景技術中存在的不足,本發明目的在于提供一種文本分類方法,通過該方法使得分類的文本更加準確,具有進步性的分類處理能力,同時滿足大部分不同文本的分類要求,有利于文本分類,實用性強,易于推廣。
為解決上述問題,本發明采用如下技術方案:
一種文本分類方法,包括如下步驟,
步驟1:從文件庫選取若干篇文章篩選出文本的指標集,并將指標集進行歸類劃分為不同的指標庫;
步驟2:對指標庫進行歸一化處理得到文本分類指標矩陣;
步驟3:選取需分類的文本,對文本進行預處理,提取特征詞,對文本進行分詞和分字處理,去除中性詞;
步驟4:計算特征詞的權重值;
步驟5:根據權重值選取步驟2中的本分類指標矩陣對詞和字進行文本分類處理,完成文本分類。
所述步驟1中的篩選文本的指標集的具體過程為:
步驟1.1:文件庫為已經分類號的文本類型的文件庫,從文件庫選取不同文本類型的5000篇-10000篇的文本進行篩選;
步驟1.2:步驟1.1篩選的過程為從每個文本提取與該文本的分類相關的詞或字;
步驟1.3:對每個類型的文本篩選出的詞或字進行匯總得到文本的指標集。
所述步驟1中劃分為不同的指標庫的具體過程為:
步驟1.4:對每個文本類型的文本指標集進行根據詞或字在該類文本中的權重值進行劃分;
步驟1.5:同時劃分算出每個指標集在文本類型中的權重值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西科技大學鹿山學院,未經廣西科技大學鹿山學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810238364.1/2.html,轉載請聲明來源鉆瓜專利網。





