[發明專利]大規模文本分類的方法有效
| 申請號: | 201510024552.0 | 申請日: | 2015-01-18 |
| 公開(公告)號: | CN104598586B | 公開(公告)日: | 2018-04-17 |
| 發明(設計)人: | 趙旭;李建強;桂琪;亢陽陽;孫靖超;田猛 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大規模 文本 分類 方法 | ||
1.一種大規模文本分類的方法,其特征在于步驟如下:
步驟1:將文本數據轉換為向量數據:
將文本數據轉換為TF-IDF向量數據,使文本數據成為多維向量數據;
步驟2:分割大規模文本數據集為子集;
步驟3:以分布式計算方法訓練子分類器:
根據樣本分割結果,以各個子集分別訓練各自的子分類器;具體包括訓練過程中采用分布式計算的方式,由多臺電腦同時負責子分類器的訓練,提高大規模文本數據集訓練分類器的效率;
步驟4:選擇分類器處理待測樣本:
根據測試樣本的向量數據,選取所需的子分類器對測試樣本進行分類;具體包括:當測試樣本D進行分類時,首先通過D的向量信息,選取距離D最近的數個子集所對應的子分類器,組成子分類器集合距離計算公式為
之后選取子分類器與D的夾角余弦最小的1-2個子分類器加入集合M;然后對M中的各子分類器給予不同的權重,權重依據子集與D的距離而定,w(i)=∑c(i)/c(i),w為權重,c為距離,i為M中的子分類器序號,之后使用M中的各子分類器對D進行分類,投票決策結果取決于各分類器對待測樣本的分類結果的權重和,將結果按照類別,把權重相加,取權重最大的類別作為待測樣本的結果;
步驟5:多個子分類器共同決策:
這是集成學習方法在大規模文本分類中的應用,為實現兼顧精度的大規模文本分類,通過構建具有大差異性的多個子分類器,并實現多個子分類器對測試樣本共同決策。
2.根據權利要求1所述的大規模文本分類的方法,其特征在于:步驟2中依據每個樣本的向量數據,計算樣本間距,不斷將相互間距小的樣本合并生成子集,當子集中的樣本數目大于λm后,將子集分割成為樣本數量不少于m的數個子集;其中λ,m為整數,λ取值為1~3,m取值大于1000。
3.根據權利要求1所述的大規模文本分類的方法,其特征在于:步驟3中訓練子分類器的算法為SVM、KNN或NB。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510024552.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:發票真偽查詢方法和系統
- 下一篇:信息搜索方法及裝置





