[發明專利]一種基于改進貝葉斯分類的短信智能分類及搜索方法有效
| 申請號: | 201310356056.6 | 申請日: | 2013-08-15 |
| 公開(公告)號: | CN103425777A | 公開(公告)日: | 2013-12-04 |
| 發明(設計)人: | 楊柳;滕建斌;殷釗;王衡;汪國平 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 馮藝東 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 貝葉斯 分類 短信 智能 搜索 方法 | ||
1.一種基于改進貝葉斯分類的短信智能分類方法,其步驟為:
1)在手機中加載一用于對短信進行分類的特征詞表,其中記錄每個特征詞在各個預定義的類別中的重要性值,預定義類別為m個;
2)從該手機的短信數據庫中讀取短信,對于每條短信d,對該短信進行分詞處理,得到短信d的特征詞{t1,t2,…,tk};
3)利用貝葉斯分類算法根據特征詞表計算短信d屬于類別Ci的概率P(Ci|d),將具有最大P(Ci|d)的類別Ci作為該短信d最終的分類結果;
其中:
2.如權利要求1所述的方法,其特征在于建立所述特征詞表的方法為:
1)在PC端利用中科院漢語分詞系統對短信訓練集中的短信文本進行分詞,得到每個文檔及其詞條的集合;
2)對于每個詞條,利用特征值提取方法計算它在該訓練集中的重要性值;
3)將詞條按重要性值降序排列,取前Q個詞條作為特征詞;
4)將每個特征詞及其在每個類別中的重要性值輸出到所述特征詞表中。
3.如權利要求1或2所述的方法,其特征在于詞條在一類別中的所述重要性值與詞條在該類別中出現的概率成正比、與該類別中的平均文檔成反比、與該類別中的詞條數成反比。
4.如權利要求3所述的方法,其特征在于將詞條t在類別C中的重要性值用I(t,C)來表示;采用公式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310356056.6/1.html,轉載請聲明來源鉆瓜專利網。





