[發明專利]一種信息分類的方法和裝置無效
| 申請號: | 201010151119.0 | 申請日: | 2010-04-19 |
| 公開(公告)號: | CN102222072A | 公開(公告)日: | 2011-10-19 |
| 發明(設計)人: | 李戰勝;王迪;薛曄偉 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 何文彬 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息 分類 方法 裝置 | ||
技術領域
本發明涉及互聯網信息檢索領域,特別涉及一種信息分類的方法和裝置。
背景技術
隨著Internet(因特網)的普及和信息量的迅猛增長,web(網頁)數據挖掘技術已成為信息檢索領域的研究熱點,文本分類作為web數據挖掘的一個重要技術也得到了廣泛的研究和應用。目前一些統計分類法和機器學習方法,如:貝葉斯(Bayes)、k-近鄰法(k-Nearest?Neighbor,kNN)、決策樹(DecisionTree)和支持向量機(support?vector?machine,SVM)等都被應用為文本分類方法,且都取得了相當好的效果。
貝葉斯、k-近鄰法、決策樹和支持向量機等文本分類方法均可分為訓練和預測2個過程,訓練過程:首先收集對應分類體系的大規模語料,其次用特征來表示大規模語料,最后根據大規模語料的特征建立模型形成分類器;預測過程:首先用特征來表示新文本,其次將新文本的特征輸入到分類器,最后輸出新文本的類別。
然而近年來,各種短文本如文章摘要、電子郵件、網上即時消息、用戶用于搜索的Query(查詢串)等已經源源不斷地大量涌現,當采用上述現有技術的各種文本分類方法對這些長度比較短、結構各異的短文本進行分類時,發明人發現至少存在下述缺點:
由于現有技術的各種文本分類方法均是根據新文本的特征得到新文本的類別,而短文本本身包含的信息量很少,根據短文本的特征得到短文本的類別的準確率很低,即對短文本進行分類的準確率很低。
發明內容
為了提高對信息進行分類的準確率,本發明實施例提供了一種信息分類的方法和裝置。所述技術方案如下:
一種信息分類的方法,所述方法包括:
獲取信息在搜索引擎中的搜索結果,并記錄每條搜索結果的類別;
在記錄的所有類別中,統計每種類別出現的次數;
根據所述每種類別出現的次數,為所述信息選擇類別。
進一步地,所述獲取信息在搜索引擎中的搜索結果之前還包括:
對所述搜索結果進行類別的標注。
進一步地,所述根據所述每種類別出現的次數,為所述信息選擇類別具體包括:
根據所述每種類別出現的次數,計算出所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例;
根據所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例,為所述信息選擇類別。
進一步地,所述根據所述每種類別出現的次數,為所述信息選擇類別具體包括:
根據所述每種類別出現的次數,計算出所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例;
根據所述每種類別出現的次數,以及所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例,為所述信息選擇類別。
一種信息分類的裝置,所述裝置包括:
類別記錄模塊,用于獲取信息在搜索引擎中的搜索結果,并記錄每條搜索結果的類別;
次數統計模塊,用于在所述類別記錄模塊記錄下每條搜索結果的類別后,在記錄的所有類別中,統計每種類別出現的次數;
類別選擇模塊,用于在所述次數統計模塊統計出每種類別出現的次數后,根據所述每種類別出現的次數,為所述信息選擇類別。
進一步地,所述裝置還包括:
類別標注模塊,用于在所述類別記錄模塊獲取信息在搜索引擎中的搜索結果之前,對所述搜索結果進行類別的標注。
進一步地,所述類別選擇模塊具體包括:
第一比例計算單元,用于在所述次數統計模塊統計出每種類別出現的次數后,根據所述每種類別出現的次數,計算出所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例;
第一類別選擇單元,用于在所述第一比例計算單元計算出所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例后,根據所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例,為所述信息選擇類別。
進一步地,所述類別選擇模塊具體包括:
第二比例計算單元,用于在所述次數統計模塊統計出每種類別出現的次數后,根據所述每種類別出現的次數,計算出所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例;
第二類別選擇單元,用于在所述第二比例計算單元計算出所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例后,根據所述每種類別出現的次數,以及所述每種類別出現的次數與記錄的所有類別出現的總次數之間的比例,為所述信息選擇類別。
本發明實施例提供的技術方案的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010151119.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車斗后板踏板裝置
- 下一篇:醫用夾板超聲波熱熔復合裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





