[發明專利]一種文本分類方法和系統有效
| 申請號: | 201310009087.4 | 申請日: | 2013-01-10 |
| 公開(公告)號: | CN103927302B | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 陳俊波;李華康;曾鵬程;薛貴榮 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司11315 | 代理人: | 許志勇 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 系統 | ||
技術領域
本申請專利申請涉及文本處理領域,尤其涉及一種文本分類的方法和系統。
背景技術
文本處理中最常見的是進行文本分類處理。文本分類一般包括文本的表達、分類器的選擇與訓練、結果分類的評價與反饋等過程,其中文本的表達又可以細分為文本預處理、索引和統計、特征抽取等步驟。如圖1所示的文本分類流程圖。預處理是將原始語料格式化為同一格式,便于后續的統一處理;索引主要將文檔分解為基本處理單元,同時降低后續處理的開銷;統計的主要工作是總結出詞頻、項與分類的相關概率,生成關聯規則庫;特征抽取是從文檔中抽取出反應特征文檔主題的特征;而分類器的主要工作是把測試文本的特征向量基于生成的關聯規則庫,進行文本的分類。在完成文本的分類后,要對分類器分類結果進行分析,進一步優化分類規則,充實訓練庫等。
目前文本分類技術的研究主要放在特征值抽取和分類器建模方面,以下是國內現有的集中關于文本分類方面的專利技術:
一種基于領域知識的短文本分類方法及文本分類系統,用于解決信息技術領域中傳統文本分類方法不能較好的對對短文本進行分類的缺點。訓練數據獲取模塊用來獲取進行訓練的數據得到學習庫;數據與處理模塊,對所述學習庫進行信息抽取將無結構化的數據處理為結構化數據;文本表示模塊采用向量空間模型對數據進行數學化表示;特征抽取模塊依據TFIDF算法對詞項集的重要性進行排序;模型建立模塊對每個詞項權值賦予不同的權重,并根據預先設定的分類規則分類。該方法和系統,對傳統的分類器進行了一定的創新,在分類器中引入了領域詞語的概念,有效地增加了短文本的信息量,對短文本數據特別是網頁商品數據做基于不同詞項集的語義分析,并將語義分析的結果注入到分類器中,為商品數據信息注入了新的信息,從而提高文本分類的準確率。
一種基于塊劃分及位置權重的文本分類方法包括:對輸入的訓練或測試文本經過基本的預處理后,提取文本中的段信息;將每一段視為一個基本的文本塊,對塊信息做統計分析,根據塊大小分布或預定義的塊比率,對文本內容重新進行塊劃分,包括文本塊的合并等操作。提取特征詞、量化權重,并獲取特征詞對類別的后驗概率,然后分析具有最大后驗概率類別與文本類別標簽相符的特征詞的分布,最后生成文本向量;利用分類器完成分類模型訓練或文本分類。該方法可用于文本分類系統的文本表示階段,通過豐富傳統的利用特征詞構建文本向量時對文本內容信息的表達,提升文本分類效果。
一種基于領域知識的文本分類特征選擇及權重計算方法,該方法結合樣本統計與領域術語構造領域分類特征空間,利用領域內部知識關系,計算術語間的相似度,依此來調整分類特征向量相應特征維權重。并采用支持向量機學習算法,建立領域文本分類模型,實現領域文本分類。對云南旅游領域與非旅游領域文本分類實驗結果表明,該方法分類準確率比改進TFIDF特征權重方法的文本分類效果提高了4個百分點。
一種基于概率主題詞的兩級組合文本分類方法采用的:一級分類:基于樸素貝葉斯分類方法,利用概率主題詞特征和拒絕條件判斷對測試文本分類;二級分類:再基于傳統特征提取方法提取出特征詞對被第一級拒絕分類的測試文本進行分類。此分級組合方法對文本進行分類,融和不同分類器的特點能夠非常快的在一級分類中對很多文本進行正確分類,大大提高文本分類系統效率,為文本分類系統實用化提供很好的處理方式;考慮文本特點提出概率主題詞,在適當的拒絕條件下,概率主題詞以很高的正確率完成大量文本分類任務。實驗證明本申請兩級組合與傳統單一分類相比,能夠大大減少時間消耗并能提高系統分類正確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310009087.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無界觸摸技術的實現方法與系統
- 下一篇:觸感反饋的方法及電子設備





