[發明專利]一種文本分類方法和裝置有效
| 申請號: | 201010292461.2 | 申請日: | 2010-09-21 |
| 公開(公告)號: | CN102411592A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | 孫翔 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明;王寶筠 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 裝置 | ||
技術領域
本申請涉及通信和計算機技術領域,特別是涉及一種文本分類方法和裝置。
背景技術
隨著互聯網在全球范圍內的快速發展,人們面臨的信息呈指數增加。在人們所面臨的信息中有大量的文本信息,因此,對文本信息的處理技術尤為重要。其中,對文本信息進行分類是組織和管理文本信息的一個有效手段,將文本信息進行分類可以方便人們對文本信息的瀏覽、查找和使用。文本分類是指由計算機對文本信息經過某種分類算法的處理后,把文本判別到預先定義好的類別中,即,文本到類別的映射。
在現有的文本分類方法中,通常都是將文檔按照一定的原理切割成多個詞匯,并假設各個詞匯在文檔中出現的概率是獨立的,即,假設詞匯與詞匯之間不存在相互影響。在上述假設下,只需要對單個詞匯在文檔中出現的次數進行統計,即,統計單個詞匯的詞頻,然后將單個詞匯的詞頻經過特定分類算法的處理后,得到分類結果。
但是,發明人在研究中發現,不同詞匯之間不存在相互影響僅僅是一種非常理想化的假設。在實際應用中,文檔的整個語義都需要依靠上下文來表達,這就決定了詞匯與詞匯之間是彼此關聯并相互影響的。例如,“毛澤東”與“周恩來”兩個詞匯在一些政治文檔中同時出現的概率很高,由此可見,這兩個詞匯在文檔中是彼此關聯并相互影響的,它們在文檔中出現的概率不是獨立的。因此,在假設詞匯在文檔中出現的概率是獨立的前提條件下,統計單個詞匯的詞頻,并將單個詞匯的詞頻經過特定分類算法的處理后所得到的分類結果是不準確的。
發明內容
為了解決上述技術問題,本申請實施例提供了一種文本分類方法和裝置,以提高分類結果的準確性。
本申請實施例公開了如下技術方案:
一種文本分類方法,包括:將待分類文檔進行分詞,對分詞得到的各詞匯進行組合,得到待分類文檔詞匯組集合,其中,待分類文檔詞匯組集合中的各詞匯組包括至少兩個詞匯;統計所述待分類文檔詞匯組集合中各詞匯組的詞頻;從預先獲得的詞匯組向量中提取所述待分類文檔詞匯組集合中的各詞匯組的向量,其中,所述預先獲得詞匯組向量是預先將具有確定類別的樣本文檔進行分詞,對分詞得到的各詞匯進行組合,得到樣本文檔詞匯組集合,統計所述樣本文檔詞匯組集合中各詞匯組的詞頻,將同一詞匯組在各樣本文檔類別中的詞頻組成詞頻向量,對所述詞頻向量進行歸一化處理,得到詞匯組向量,其中,樣本文檔詞匯組集合中各詞匯組包括至少兩個詞匯;將待分類文檔中各詞匯組的詞頻作為詞匯組的向量數,對上述提取的各詞匯組的所有向量求和,得到總分類向量;對所述總分類向量進行預置分類算法的處理,得到待分類文檔的分類結果。
一種文本分類裝置,包括:詞匯組合模塊,用于將待分類文檔進行分詞,對分詞得到的各詞匯進行組合,得到待分類文檔詞匯組集合,其中,待分類文檔詞匯組集合中的各詞匯組包括至少兩個詞匯;詞頻統計模塊,用于統計所述待分類文檔詞匯組集合中各詞匯組的詞頻;向量提取模塊,用于從預先獲得的詞匯組向量中提取所述待分類文檔詞匯組集合中的各詞匯組的向量,其中,所述預先獲得詞匯組向量是預先將具有確定類別的樣本文檔進行分詞,對分詞得到的各詞匯進行組合,得到樣本文檔詞匯組集合,統計所述樣本文檔詞匯組集合中各詞匯組的詞頻,將同一詞匯組在各樣本文檔類別中的詞頻組成詞頻向量,對所述詞頻向量進行歸一化處理,得到詞匯組向量,其中,樣本文檔詞匯組集合中各詞匯組包括至少兩個詞匯;向量求和模塊,用于將待分類文檔中各詞匯組的詞頻作為詞匯組的向量數,對上述提取的各詞匯組的所有向量求和,得到總分類向量;分類模塊,用于對所述總分類向量進行預置分類算法的處理,得到待分類文檔的分類結果。
由上述實施例可以看出,利用詞匯組詞頻替代原有的單個詞匯的詞頻,在此基礎上,統計詞匯組的詞頻,當從預先基于樣本文檔獲得的詞匯組向量中提取待分類文檔詞匯組集合中的各詞匯組的向量后,將待分類文檔詞匯組集合中各詞匯組的詞頻作為詞匯組的向量數,對提取的各詞匯組的所有向量進行求和,得到總分類向量,對所述總分類向量進行預置分類算法的處理,得到待分類文檔的分類結果。由于整個文本分類方法是基于詞匯組的詞頻進行的,考慮了詞匯與詞匯之間的相互影響和相互關聯,相對于現有的文類方法,提高了分類結果的準確性。
附圖說明
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本申請一種文本分類方法的一個實施例的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010292461.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:秧苗移栽防曬罩
- 下一篇:一種網頁分類方法和裝置





