[發明專利]一種基于類別分布概率的文本特征抽取方法無效
| 申請號: | 201310231448.X | 申請日: | 2013-06-13 |
| 公開(公告)號: | CN103294817A | 公開(公告)日: | 2013-09-11 |
| 發明(設計)人: | 楊燕;李強;潘云;杜澤宇;楊河彬;倪敏杰 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海藍迪專利事務所 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 類別 分布 概率 文本 特征 抽取 方法 | ||
1.一種基于類別分布概率的文本特征抽取方法,其特征在于該方法包括以下步驟:
第一步:選定一定的中文文本集合,對文本集合進行預處理,將語料文本按照預定義的類別進行分類;
第二步:利用分詞軟件對文本進行分詞處理,去掉標點符號和停用詞,獲得文本集合的原始的詞集;
第三步:對原始詞集中的每個詞分別統計總詞頻和類別詞頻信息;
第四步:計算各個詞在各個類別中的類別分布概率,獲得詞匯的類別分布概率向量:
?????????????????????????????????????????????????????
??????,j=
?????:?詞t?在類別,?j=?中的詞頻;
??????詞t?在類別中的詞頻分布概率;
?????:?詞t的類別分布向量;
?????||:?類?中的文檔數目;
?????m:類別數目;
第五步:對每個詞的類別分布概率向量求平均值:??????????
?????:詞?t的類別分布概率的均值;
第六步:計算每個詞的類別分布概率均方差;
??????????
?????:詞?t的類別分布概率均方差;
第七步:對原始詞集中的每個詞按照類別分布概率均方差的大小進行降序排列,抽取預定義數目的均方差值高的詞作為特征詞集合;
第八步:以獲得的特征詞集構建文本集合的向量空間矩陣;
第九步:利用已有的分類器算法對該向量空間矩陣進行訓練,獲得文本分類模型;
第十步:利用訓練得到的文本分類模型對待分類的文本進行分類,驗證其有效性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310231448.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:光電復合數據電纜
- 下一篇:一種生成飛行器初始雷擊附著點的方法





