[發明專利]文章分類方法及裝置、存儲介質有效
| 申請號: | 201710792136.4 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN110019776B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 王樹偉;溫旭;花少勇;何鑫;姜國華;殷樂;花貴春;范欣;胡博 | 申請(專利權)人: | 騰訊科技(北京)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/289;G06F18/2411 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 張振偉;張穎玲 |
| 地址: | 100080 北京市海淀區海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文章 分類 方法 裝置 存儲 介質 | ||
1.一種文章分類方法,其特征在于,包括:
將測試集包括的文章的特征詞,與目標類別的特征詞庫包括的特征詞進行匹配,得到匹配成功的特征詞;
當將所述測試集包括的文章的特征詞,與目標類別的特征詞庫包括的特征詞進行匹配,并得到匹配成功的單個特征詞時,將匹配成功的單個特征詞的得分按照對應的權重相加,得到單個特征詞維度的得分;
當將所述測試集包括的文章中的組合特征詞,與目標類別的特征詞庫包括的組合特征詞進行匹配,并得到匹配成功的組合特征詞時,將匹配成功的組合特征詞的得分按照對應的權重相加,得到組合特征詞維度的得分;
將所述文章的不同維度的得分相加,得到所述文章屬于所述目標類別的得分;
根據所述文章的得分,確定所述文章是否屬于所述目標類別的第一判斷結果;
將剩余文章的特征輸入分類器模型,確定所述剩余文章是否屬于所述目標類別的第二判斷結果,所述剩余文章為根據所述第一判斷結果確定的未屬于所述目標類別的文章。
2.如權利要求1所述的方法,其特征在于,所述將測試集包括的文章的特征詞,與目標類別的特征詞庫包括的特征詞進行匹配,得到匹配成功的特征詞,包括:
將所述測試集包括的文章的特征詞,與目標類別的特征詞庫包括的特征詞進行匹配,得到匹配成功的單個特征詞;和/或,
將所述測試集包括的文章的特征詞按照出現順序組合,與目標類別的特征詞庫包括的組合特征詞進行匹配,得到匹配成功的組合特征詞。
3.如權利要求1所述的方法,其特征在于,所述根據所述文章的得分,確定所述文章是否屬于所述目標類別的第一判斷結果,包括:
當所述文章的得分超出所述目標類別的得分閾值時,確定所述文章屬于所述目標類別,
當所述文章的得分未超出所述目標類別的得分閾值時,確定所述文章未屬于所述目標類別。
4.如權利要求1所述的方法,其特征在于,所述將剩余文章的特征輸入分類器模型,確定所述文章是否屬于所述目標類別的第二判斷結果,包括:
根據不同類型的分類器模型的擬合關系,將所述不同類型的分類器模型預測的得分擬合,得到所述剩余文章對應所述目標類別的得分,其中,所預測的得分為基于所述剩余文章的特征預測得到;
當所述文章的得分超出所述目標類別的得分閾值時,確定所述文章屬于所述目標類別,當所述文章的得分未超出所述目標類別的得分閾值時,確定所述文章未屬于所述目標類別。
5.如權利要求1至4任一項所述的方法,其特征在于,還包括:
以訓練集包括的文章的特征詞的詞向量為樣本特征、以及對應的分類結果為樣本標記構造訓練樣本;
使用所構造的訓練樣本分別迭代訓練不同類別的分類器模型,直至滿足迭代中止條件;
將所述分類器模型的預測結果向所述訓練集包括的文章的分類結果擬合,得到所述分類器模型之間的擬合關系。
6.如權利要求5所述的方法,其特征在于,還包括:
從特征詞庫中獲得特征詞,所述特征詞滿足以下條件:未在所述訓練集包括的文章中出現;與所述訓練集包括的文章的特征詞的詞向量的距離小于距離閾值;
將針對所述文章獲得的特征詞的詞向量、連同所述文章的特征詞的詞向量作為所述文章的樣本特征。
7.如權利要求5所述的方法,其特征在于,還包括:
在所述訓練集包括的文章的閱讀用戶的閱讀歷史中,確定目標分類的閱讀比例和/或數量;
向所述文章對應的樣本特征中添加所述文章的閱讀比例和/或數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(北京)有限公司,未經騰訊科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710792136.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網絡短文本分類的優化系統及方法
- 下一篇:一種信息分類的方法及設備





