[發明專利]文本分類方法有效
| 申請號: | 200910142286.6 | 申請日: | 2009-06-29 |
| 公開(公告)號: | CN101587493A | 公開(公告)日: | 2009-11-25 |
| 發明(設計)人: | 陳恩紅;林洋港;馬海平;曹歡歡 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市德恒律師事務所 | 代理人: | 張 覲 |
| 地址: | 230026*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 | ||
1.一種文本分類方法,其特征在于,所述分類方法包括以下步驟:
a)根據類別將初始訓練文本集劃分為多個子集,并從每個子集中抽取 出對應的概率主題模型,其中每個子集包含相同類別的文本;
b)利用對應的概率主題模型生成新的文本來均衡所述多個子集的類 別;
c)根據所述多個子集對應的均衡訓練文本集構造分類器;以及
d)利用所述分類器進行文本分類,其中
所述步驟b包括:
確定包含最多文本數量的子集;
每個概率主題模型根據所述最多文本數量生成對應的新文本,其 中所述新文本數量為所述最多文本數量與每個子集包含的文本數量的差 值;以及
將所述新文本加入到對應的子集中。
2.如權利要求1所述的分類方法,其特征在于,所述概率主題模型為 隱迪列徹萊特分配LDA概率主題模型。
3.如權利要求2所述的分類方法,其特征在于,所述概率主題模型生 成新文本的步驟包括:
e1)根據泊松分布確定所述新文本的詞符數目;
e2)根據所述概率主題模型的主題分布,隨機選擇一個主題作為當前 詞符的潛在主題;
e3)根據所述主題的單詞分布,隨機從所述主題包含的單詞中選擇一 個單詞作為當前詞符對應的單詞;
e4)將所述當前詞符及對應的單詞加入新文本中并處理下一個詞符;
e5)重復上述步驟e2到步驟e4,直至所述新文本中的詞符數目等于所 述確定的詞符數目。
4.如權利要求1所述的分類方法,其特征在于,還包括利用所述概率 主題模型生成新的文本代替所述初始文本訓練集包含的文本。
5.如權利要求1所述的分類方法,其特征在于,還包括對構造分類器 的所述均衡訓練文本集進行特征降維的步驟。
6.如權利要求5所述的分類方法,其特征在于,所述特征降維步驟包 括:
計算所述均衡訓練文本集中每個單詞的信息增益;
將每個單詞的信息增益與預定閾值進行比較;以及
將信息增益小于所述預定閾值的單詞除去。
7.如權利要求5所述的分類方法,其特征在于,所述特征降維步驟包 括:
計算所述均衡訓練文本集中每個單詞的信息增益;
按照信息增益的大小將每個單詞進行排序;以及
除去信息增益較小的單詞。
8.如權利要求1所述的分類方法,其特征在于,所述分類器為支持向 量機。
9.如權利要求1所述的分類方法,其特征在于,還包括對所述初始訓 練文本集進行預處理的步驟,以過濾常用詞以及進行詞根還原。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910142286.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:經皮給藥裝置和經皮給藥方法
- 下一篇:智能存儲卡的操作方法及裝置





