[發明專利]分類模型訓練方法、異常評論檢測方法、裝置及設備有效
| 申請號: | 201910133882.1 | 申請日: | 2019-02-22 |
| 公開(公告)號: | CN110162621B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 溫蕊 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 模型 訓練 方法 異常 評論 檢測 裝置 設備 | ||
1.一種分類模型訓練方法,其特征在于,包括:
獲取語料集,根據所述語料集構建黑詞庫;
獲取目標評論系統中的評論數據集,根據所述評論數據集擴充所述黑詞庫;
對所述評論數據集中各評論數據進行行為特征提取并根據所述黑詞庫進行內容特征提取,根據評論數據對應的行為特征和內容特征生成攜帶有類型標簽的訓練特征向量,所述類型標簽包括正常和異常;
以所述評論數據集中各評論數據對應的訓練特征向量作為訓練樣本,其中,類型標簽為正常的訓練特征向量作為所述訓練樣本中的正樣本,類型標簽為異常的訓練特征向量作為所述訓練樣本中的負樣本,采用所述訓練樣本對分類模型進行多次迭代訓練,通過當前迭代訓練的分類模型對所述評論數據集中各評論數據進行預測,根據預測類型為異常的評論數據更新所述黑詞庫,基于更新后的黑詞庫重新標記所述評論數據集中各評論數據的類型標簽以更新所述訓練樣本,以進行下一次迭代訓練直至所述分類模型和所述黑詞庫處于穩定態。
2.根據權利要求1所述的方法,其特征在于,所述目標評論系統為應用商店的評論系統;
則所述獲取語料集,根據所述語料集構建黑詞庫,包括:
獲取多種來源的語料集,所述多種來源的語料集中至少包括來源于應用市場的應用實體名稱語料集和來源于互聯網網站的作弊輿情語料集;針對獲取的語料集進行關鍵詞抽取、去重和分類得到包含多個類別的黑詞表的黑詞庫。
3.根據權利要求1所述的方法,其特征在于,所述根據所述評論數據集擴充所述黑詞庫,包括:
對所述評論數據集中各評論數據進行分詞、命名實體識別以及摘要抽取,得到所述評論數據集對應的關鍵詞;
確定所述評論數據集對應的關鍵詞與所述黑詞庫中黑詞的詞向量距離;
選擇詞向量距離小于距離閾值的關鍵詞,將其擴充至所述黑詞庫中。
4.根據權利要求1所述的方法,其特征在于,所述對所述評論數據集中各評論數據進行行為特征提取,包括:
針對所述評論數據集中各評論數據分別提取多維行為特征,所述多維行為特征包括以下至少兩種行為特征:
評論內容長度、特殊符號占比、發表評論設備數量、重復評論出現次數、用戶在時間周期內發表評論次數、用戶平均使用設備數和內容相似的評論數。
5.根據權利要求1所述的方法,其特征在于,所述根據所述黑詞庫進行內容特征提取,包括:
針對所述評論數據集中各評論數據,判斷該評論數據中是否包括所述黑詞庫中的黑詞;
若是,確定該評論數據的內容特征表征該評論數據的內容為異常;
否則,確定該評論數據的內容特征表征該評論數據的內容為正常。
6.根據權利要求1所述的方法,其特征在于,通過以下方式確定所述類型標簽:
根據統計策略中各行為特征閾值,判斷評論數據對應的行為特征是否為異常;
當評論數據的行為特征和內容特征中存在有一種特征為異常,則確定該評論數據的類型標簽為異常標簽,否則確定該評論數據的類型標簽為正常標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910133882.1/1.html,轉載請聲明來源鉆瓜專利網。





