[發(fā)明專利]基于移動應(yīng)用評論數(shù)據(jù)的惡意軟件識別方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201811466838.4 | 申請日: | 2018-12-03 |
| 公開(公告)號: | CN109583208A | 公開(公告)日: | 2019-04-05 |
| 發(fā)明(設(shè)計)人: | 崔紅軍;吳振宇;唐祝壽;燕錦華;鄧朝日;池定程;封亮;解群;龍剛;李翔;沈雷;郭玉環(huán);李巍 | 申請(專利權(quán))人: | 華東計算技術(shù)研究所(中國電子科技集團公司第三十二研究所);上海犇眾信息技術(shù)有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F17/27;G06F16/35 |
| 代理公司: | 上海段和段律師事務(wù)所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201800 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 評論數(shù)據(jù) 移動應(yīng)用 特征屬性 惡意軟件識別 分類器訓練 檢測 訓練樣本 應(yīng)用市場 評論 關(guān)鍵詞確定 定義分類 分類類別 風險識別 接收用戶 條件概率 用戶評論 自動反饋 篩選 分類 應(yīng)用 分析 | ||
1.一種基于移動應(yīng)用評論數(shù)據(jù)的惡意軟件識別方法,其特征在于,包括:
數(shù)據(jù)處理步驟:獲取移動應(yīng)用市場中的評論數(shù)據(jù)集,定義分類類別,對評論數(shù)據(jù)集進行篩選,得到評論關(guān)鍵詞;
數(shù)據(jù)訓練步驟:基于評論關(guān)鍵詞確定特征屬性,對特征屬性進行分類類別劃分后,得到訓練樣本,基于訓練樣本進行分類器訓練,建立檢測模型;
數(shù)據(jù)檢測步驟:檢測模型接收用戶評論,計算特征屬性在各分類類別的條件概率值,得出移動應(yīng)用的風險識別。
2.根據(jù)權(quán)利要求1所述的基于移動應(yīng)用評論數(shù)據(jù)的惡意軟件識別方法,其特征在于,所述數(shù)據(jù)處理步驟包括:
數(shù)據(jù)獲取步驟:獲取移動應(yīng)用市場中的評論數(shù)據(jù)集,將評論數(shù)據(jù)集分成兩部分,分別記為第一評論數(shù)據(jù)、第二評論數(shù)據(jù),基于第一評論數(shù)據(jù)、第二評論數(shù)據(jù)定義分類類別;
數(shù)據(jù)分類步驟:將第一評論數(shù)據(jù)基于分類類別進行分類,得到第一評論數(shù)據(jù)的所屬類別,運用kappa系數(shù)校正所屬類別的準確率;
數(shù)據(jù)篩選步驟:采用語言探測工具對第一評論數(shù)據(jù)進行語言限定后,采用分詞組件對第一評論數(shù)據(jù)進行分詞計算,保留第一評論數(shù)據(jù)中的有效詞,刪除第一評論數(shù)據(jù)中的無效詞,得到第三評論數(shù)據(jù);
關(guān)鍵詞獲得步驟:將第三評論數(shù)據(jù)用文檔向量表示,采用向量空間模型計算每個有效詞在文檔向量中的權(quán)重,將各有效詞按照所述權(quán)重的從大到小進行排列,得到評論關(guān)鍵詞。
3.根據(jù)權(quán)利要求2所述的基于移動應(yīng)用評論數(shù)據(jù)的惡意軟件識別方法,其特征在于,所述數(shù)據(jù)訓練步驟包括:
類別劃分步驟:基于評論關(guān)鍵詞確定特征屬性,參考樸素貝葉斯模型,進行分類類別劃分,得到訓練樣本;
模型建立步驟:計算各分類類別在訓練樣本中的出現(xiàn)頻率,得到樣本類別頻率,計算各特征屬性對各分類類別的條件概率,得到屬性條件概率,基于樣本類別頻率和屬性條件概率建立檢測模型。
4.根據(jù)權(quán)利要求2所述的基于移動應(yīng)用評論數(shù)據(jù)的惡意軟件識別方法,其特征在于,所述數(shù)據(jù)檢測步驟包括:
類別頻率計算步驟:基于評論關(guān)鍵詞計算第三評論數(shù)據(jù)在各分類類別中出現(xiàn)的頻率,記為評論類別頻率;
條件概率計算步驟:基于評論類別頻率,計算各特征屬性在各分類類別中出現(xiàn)的條件概率值,取條件概率值的最大值作為條件概率,基于所述條件概率的分類類別進行風險識別。
5.一種基于移動應(yīng)用評論數(shù)據(jù)的惡意軟件識別系統(tǒng),其特征在于,包括:
數(shù)據(jù)處理模塊:獲取移動應(yīng)用市場中的評論數(shù)據(jù)集,定義分類類別,對評論數(shù)據(jù)集進行篩選,得到評論關(guān)鍵詞;
數(shù)據(jù)訓練模塊:基于評論關(guān)鍵詞確定特征屬性,對特征屬性進行分類類別劃分后,得到訓練樣本,基于訓練樣本進行分類器訓練,建立檢測模型;
數(shù)據(jù)檢測模塊:檢測模型接收用戶評論,計算特征屬性在各分類類別的條件概率值,得出移動應(yīng)用的風險識別。
6.根據(jù)權(quán)利要求5所述的基于移動應(yīng)用評論數(shù)據(jù)的惡意軟件識別系統(tǒng),其特征在于,所述數(shù)據(jù)處理模塊包括:
數(shù)據(jù)獲取模塊:獲取移動應(yīng)用市場中的評論數(shù)據(jù)集,將評論數(shù)據(jù)集分成兩部分,分別記為第一評論數(shù)據(jù)、第二評論數(shù)據(jù),基于第一評論數(shù)據(jù)、第二評論數(shù)據(jù)定義分類類別;
數(shù)據(jù)分類模塊:將第一評論數(shù)據(jù)基于分類類別進行分類,得到第一評論數(shù)據(jù)的所屬類別,運用kappa系數(shù)校正所屬類別的準確率;
數(shù)據(jù)篩選模塊:采用語言探測工具對第一評論數(shù)據(jù)進行語言限定后,采用分詞組件對第一評論數(shù)據(jù)進行分詞計算,保留第一評論數(shù)據(jù)中的有效詞,刪除第一評論數(shù)據(jù)中的無效詞,得到第三評論數(shù)據(jù);
關(guān)鍵詞獲得模塊:將第三評論數(shù)據(jù)用文檔向量表示,采用向量空間模型計算每個有效詞在文檔向量中的權(quán)重,將各有效詞按照所述權(quán)重的從大到小進行排列,得到評論關(guān)鍵詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東計算技術(shù)研究所(中國電子科技集團公司第三十二研究所);上海犇眾信息技術(shù)有限公司,未經(jīng)華東計算技術(shù)研究所(中國電子科技集團公司第三十二研究所);上海犇眾信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811466838.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





