[發明專利]基于移動應用評論數據的惡意軟件識別方法和系統在審
| 申請號: | 201811466838.4 | 申請日: | 2018-12-03 |
| 公開(公告)號: | CN109583208A | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 崔紅軍;吳振宇;唐祝壽;燕錦華;鄧朝日;池定程;封亮;解群;龍剛;李翔;沈雷;郭玉環;李巍 | 申請(專利權)人: | 華東計算技術研究所(中國電子科技集團公司第三十二研究所);上海犇眾信息技術有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F17/27;G06F16/35 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201800 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 評論數據 移動應用 特征屬性 惡意軟件識別 分類器訓練 檢測 訓練樣本 應用市場 評論 關鍵詞確定 定義分類 分類類別 風險識別 接收用戶 條件概率 用戶評論 自動反饋 篩選 分類 應用 分析 | ||
本發明提供了一種基于移動應用評論數據的惡意軟件識別方法和系統,獲取移動應用市場中的評論數據集,定義分類類別,對評論數據集進行篩選,得到評論關鍵詞;基于評論關鍵詞確定特征屬性,對特征屬性進行分類類別劃分后,得到訓練樣本,基于訓練樣本進行分類器訓練,建立檢測模型;檢測模型接收用戶評論,計算特征屬性在各分類類別的條件概率值,得出移動應用的風險識別。本發明從NLP技術角度,收集應用市場中的移動應用評論數據,分析獲得特征屬性,通過分類器訓練建立檢測模型。檢測模型接收來自應用市場中用戶評論可快速、自動反饋出應用存在的風險,實現惡意軟件識別。
技術領域
本發明涉及自然語言處理領域,具體地,涉及一種基于移動應用評論數據的惡意軟件識別方法和系統。
背景技術
隨著移動互聯網的迅速發展與普及,用戶和移動應用之間的關系密不可分,使得某些包含惡意代碼的應用迅速傳播。用戶使用這些應用時,惡意代碼會直接或間接地對用戶造成嚴重的后果。因此需要對應用市場上的惡意應用進行排查。
現有技術中,檢測惡意安卓應用通常使用兩種方法。一是靜態分析,在不運行惡意軟件的情況下執行惡意檢測,所用技術包括反編譯,模式識別等。但靜態分析方法不能識別未知的惡意軟件。二是動態分析,在沙盒環境下運行,可以檢測應用的行為并且防止惡意軟件感染真實的運行環境。但是動態分析首先需要搭建獨立的沙盒環境,進行一些列的參數配置。因此,需要尋求一種簡單有效的檢測方式,能夠快速、自動發現待檢測應用中各類風險的存在。
專利文獻CN108647518A公開了一種基于深度學習的Android平臺惡意軟件檢測方法,包括以下步驟:通過反編譯得到應用軟件APK對應的字節碼文件;從字節碼文件中提取并生成相應的指令序列,以向量的形式來表示每條指令的信息,并得到指令序列的時間序列;以指令序列的時間序列作為循環神經網絡的輸入值,循環神經網絡的輸出值為onehot向量,通過對循環神經網絡進行大量輸入輸出對的訓練,得到惡意軟件識別器;利用惡意軟件識別器對惡意軟件檢測識別。本發明能夠對神經網絡持續訓練,更為快捷地得到識別模型,這種實現方法能夠得到快速惡意軟件識別器,惡意軟件識別器經過大量樣本訓練后具有較高的檢測準確率和速度,提高了惡意軟件檢測準確率和速度。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種基于移動應用評論數據的惡意軟件識別方法和系統。
根據本發明提供的一種基于移動應用評論數據的惡意軟件識別方法,包括:
數據處理步驟:獲取移動應用市場中的評論數據集,定義分類類別,對評論數據集進行篩選,得到評論關鍵詞;
數據訓練步驟:基于評論關鍵詞確定特征屬性,對特征屬性進行分類類別劃分后,得到訓練樣本,基于訓練樣本進行分類器訓練,建立檢測模型;
數據檢測步驟:檢測模型接收用戶評論,計算特征屬性在各分類類別的條件概率值,得出移動應用的風險識別。
優選地,所述數據處理步驟包括:
數據獲取步驟:獲取移動應用市場中的評論數據集,將評論數據集分成兩部分,分別記為第一評論數據、第二評論數據,基于第一評論數據、第二評論數據定義分類類別;
數據分類步驟:將第一評論數據基于分類類別進行分類,得到第一評論數據的所屬類別,運用kappa系數校正所屬類別的準確率;
數據篩選步驟:采用語言探測工具對第一評論數據進行語言限定后,采用分詞組件對第一評論數據進行分詞計算,保留第一評論數據中的有效詞,刪除第一評論數據中的無效詞,得到第三評論數據;
關鍵詞獲得步驟:將第三評論數據用文檔向量表示,采用向量空間模型計算每個有效詞在文檔向量中的權重,將各有效詞按照所述權重的從大到小進行排列,得到評論關鍵詞。
優選地,所述數據訓練步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東計算技術研究所(中國電子科技集團公司第三十二研究所);上海犇眾信息技術有限公司,未經華東計算技術研究所(中國電子科技集團公司第三十二研究所);上海犇眾信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811466838.4/2.html,轉載請聲明來源鉆瓜專利網。





