[發明專利]一種基于深度學習的移動應用安全缺陷摘要生成方法在審
| 申請號: | 202210792373.1 | 申請日: | 2022-07-05 |
| 公開(公告)號: | CN115357288A | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 陶傳奇;陳夢瑤;郭虹靜 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F8/74 | 分類號: | G06F8/74;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 賀翔 |
| 地址: | 211106 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 移動 應用 安全 缺陷 摘要 生成 方法 | ||
1.一種基于深度學習的移動應用安全缺陷摘要生成方法,其特征在于,步驟如下:
1)對在移動應用商店獲得的原始用戶評論進行預處理,包括句子分割,拼寫錯誤改正,縮寫和縮略式擴充;
2)對預處理后的評論句子進行情感分析,剔除情感傾向為積極的句子,保留情感傾向為中立和消極的句子;
3)對經步驟2)處理的評論句子進行分類,并采用邏輯回歸算法將其分為安全缺陷相關的評論和安全缺陷無關的評論,構建與安全缺陷相關的評論數據集;
4)從安全缺陷相關的評論中提取方面-觀點-不良行為三元組,構成安全缺陷相關的評論摘要。
2.根據權利要求1所述的基于深度學習的移動應用安全缺陷摘要生成方法,其特征在于,所述步驟1)具體包括:
11)句子分割:采用分隔符結合python第三方庫re庫的split()方法進行句子分割;
12)拼寫錯誤改正:采用python自帶的拼寫檢查庫PyEnchant,對評論句子進行錯誤檢查,若檢測到拼寫錯誤的單詞,則將其替換;
13)縮寫和縮略式擴充:采用正則表達式將評論句子中的縮寫替換為完整的表達形式。
3.根據權利要求1所述的基于深度學習的移動應用安全缺陷摘要生成方法,其特征在于,所述步驟2)具體包括:
21)采用自然語言處理工具包自帶的情感分析模塊Vader對預處理后的評論數據進行情感分析,對評論句子所表達的情感進行判別,分為積極、消極和中立三類極性,獲得該評論句子的三類情感極性的概率和一個復合得分;所述復合得分的計算方法是將詞典中每個單詞的效價分數相加,并根據規則進行調整,然后歸一化為-1和1之間;
22)根據步驟21)獲得的復合得分判別評論句子的情感傾向,提取出情感傾向為消極和中立的評論句子。
4.根據權利要求1所述的基于深度學習的移動應用安全缺陷摘要生成方法,其特征在于,所述步驟3)具體包括:
31)構造分類模型的數據集:使用步驟2)中獲得的部分評論句子構造分類模型的數據集,以csv文件格式進行存儲,文件第一列為label即該評論句子的類別,用1表示該條評論與安全性相關的評論,0表示該評論與安全性無關的評論;第二列為review即用戶評論的內容,采用人工標注的方式構造分類模型的訓練測試集;
32)采用詞頻-逆文檔頻率算法進行特征提取;從SparkML庫中導入HashingTF,IDF和Tokenizer;構造文檔集合,創建一個DataFrame,每一個句子代表一個文檔;得到文檔集合后,用tokenizer對句子進行分詞;得到分詞后的文檔序列后,使用HashingTF的transform()方法把句子哈希成特征向量,每一個單詞被哈希成一個不同的索引值;使用IDF對單純的詞頻特征向量進行修正,使其體現不同詞匯對文本的區別能力,調用fit()方法并將詞頻特征向量傳入,產生一個IDFModel;調用IDFModel的transform()方法,得到每一個單詞對應的TF-IDF矩陣;
33)采用python的sklearn庫的LogisticRegression()方法進行邏輯回歸模型的構建;
34)采用十折交叉驗證方法訓練和測試邏輯回歸模型;再將未分類的評論數據輸入到訓練后的邏輯回歸模型中,將其分為安全性相關和安全性無關,得到安全缺陷相關的評論數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210792373.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高均勻性鑄錠單晶熱場結構及使用方法
- 下一篇:一種單管儲液器





