[發明專利]一種中文文本分類方法在審
| 申請號: | 201710359493.1 | 申請日: | 2017-05-19 |
| 公開(公告)號: | CN108509471A | 公開(公告)日: | 2018-09-07 |
| 發明(設計)人: | 姚國平 | 申請(專利權)人: | 蘇州純青智能科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京華識知識產權代理有限公司 11530 | 代理人: | 陳敏 |
| 地址: | 215400 江蘇省蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文文本 算法 分類 預處理 高斯徑向基函數 輸出結果合并 分類效果 特征表示 特征提取 分類器 隱藏層 中心點 推導 準確率 測量 文本 | ||
本發明提出了一種中文文本分類方法,包括以下步驟:⑴文本的預處理,⑵特征表示和特征提取,⑶分類器的設計,⑷性能指標。本發明采用一種新的RBF神經網絡算法,通過高斯徑向基函數,使用K均值推導出隱藏項的中心點及寬度,并將由隱藏層得到的輸出結果合并起來,從而得到分類的結果,這種算法準確率、召回率、F測量的值都很高,分類效果好。
技術領域
本發明涉及數據采集技術領域,具體涉及一種中文文本分類方法。
背景技術
本分類一般包括了文本的表達、分類器的選擇與訓練、分類結果的評價與反饋等過程,其中文本的表達又可細分為文本預處理、索引和統計、特征抽取等步驟。
傳統的文本分類方法,通常對類別間區別較為明顯的長文檔進行分類,譬如網頁內容分類(體育、新聞、財經和軍事等)。然而在某些特定領域,如公安的接警信息自動化分類、微博情感分析等短文檔分類中,類別之間的差距十分細微,對文本類別精細程度要求越高,分類的準確性就變得越低。
以樸素貝葉斯算法為例,貝葉斯算法關注的是文檔屬于某類別的概率。文檔屬于某個類別的概率等于文檔中每個詞屬于該類別的概率的綜合表達式。而每個詞屬于該類別的概率又在一定程度上可以用這個詞在該類別訓練文檔中出現的次數(詞頻信息)來粗略估計,因而使得整個計算過程成為可行的。使用樸素貝葉斯算法時,在訓練階段的主要任務就是估計這些值。但是,在公安接警信息中,類別之間的差距十分細微,表達文檔主題的關鍵詞可能只有1至2 個,這樣一來其他噪聲詞匯對分類結果的干擾就十分明顯。特別是,隨著分類精細程度的提高,如將盜竊案細分為撬門入戶盜竊案、溜門入戶盜竊案、插門入戶盜竊案等等,此時,分類的準確率將急劇下降,遠遠無法滿足實際應用的需要。
因此,針對上述問題,本發明提出了一種新的技術方案。
發明內容
本發明的目的是提供一種算法準確率、召回率、F測量的值都很高,分類效果好的中文文本分類方法。
本發明是通過以下技術方案來實現的:
一種中文文本分類方法,包括以下步驟:
⑴文本的預處理,其包括語料的選擇、文本分詞、詞頻統計和文本表示;
⑵特征表示和特征提取
文本的特征表示方法也就是文本的模型,采用向量空間模型,將文本簡化為特征項的權重為分量的向量表示;
特征提取是指去除不能表示信息的詞,以提高分類效率和減少計算復雜度,本方法采用信息增益,所述信息增益來源于信息論,它表示特征在文本中出現或者不出現為確定文本的類型所提供信息量的在大小,在文本分類中,特征tk的信息增益公式如下所示:
其中:P(ci)為訓練中屬于類型ci的文本所占的比例,P(tk)訓練集中出現tk的文本數除以訓練集的大小,P(ci|tk)為ci中出現特征tk的文本數除以訓練集中出現tk的文本數,為訓練集中不出現特征tk的文本數除以訓練集的大小,為類型ci中不出現tk的文本數除以訓練集中不出現tk的文本數;
⑶分類器的設計
分類器的設計即為選澤分類算法,本方法采用徑向基函數RBF 網絡分類算法,RBF網絡是一種非線性層狀前饋網絡,通過學習等價于在多維空間中尋找一個能夠量佳擬合訓練數據的曲面,也即利用這個多維曲面對測試數據進行插值,這是徑向基函數方法的出發點;
⑷性能指標
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州純青智能科技有限公司,未經蘇州純青智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710359493.1/2.html,轉載請聲明來源鉆瓜專利網。





