[發明專利]一種確定APP責任主體的方法及系統有效
| 申請號: | 202011041584.9 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112257032B | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 竇禹;易立;陸希玉;任彥 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F21/12 | 分類號: | G06F21/12;G06F16/951;G06F16/9536;G06F16/955;G06F21/53 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 祗志潔 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 app 責任 主體 方法 系統 | ||
1.一種確定應用程序APP責任主體的系統,其特征在于,包括:配置模塊、數據采集模塊、域名提取模塊以及數據分析模塊;
用戶通過配置模塊配置APP爬取任務并下發給數據采集模塊,APP爬取任務的信息包括待爬取的網址、APP應用市場名稱、XML路徑語言Xpath解析字段以及爬取周期;
數據采集模塊解析接收到的APP爬取任務,首先爬取APP應用信息以及下載APP的應用程序包APK存儲在APP應用信息庫中;其次,數據采集模塊開啟爬蟲進程進行網站數據采集,獲取網站信息以及網站的企業主體;所述的APP應用信息包括:APP名稱、主包名稱、開發者信息、APK下載地址、發布時間、下載量以及版本信息;并下載APP的APK;將所采集的信息及下載的APK存入APP應用信息庫;
域名提取模塊定期掃描APP應用信息庫,當有新的APP應用信息時,獲取相應的APK,進行APP信息采集,包括:(1)模擬APP運行并抓包分析,獲取APP在運行期間訪問的統一資源定位符URL鏈接;(2)基于沙盒APP分析靜態源碼,提取APP中包含的所有域名;域名提取模塊從獲取的URL鏈接中提取域名;域名提取模塊對提取的各域名,檢測是否屬于第三方軟件開發工具包SDK庫中的域名,若是過濾掉,若不是,將域名推送給數據采集模塊,調用爬蟲進程進行網站數據采集;
數據分析模塊接收數據采集模塊爬取的APP應用信息、域名提取模塊提取的域名、根據域名爬取的網站信息以及域名的企業主體,對域名的出現次數進行統計,并為不同網站獲得的企業主體設置不同權重,將權重與對應的域名出現次數相乘作為企業主體的優先級數值,優先級數值越大,表示企業主體是APP的責任主體的概率越大;根據計算的優先級數值,對企業主體進行排序,保留超過閾值的企業主體,作為APP的責任主體。
2.根據權利要求1所述的系統,其特征在于,所述的數據采集模塊開啟分布式爬蟲進程進行數據爬去,同時記錄任務的信息,包括:開始時間、爬取進度、爬取數量、是否異常、是否完成、結束時間以及異常日志;當爬蟲出現問題時,將根據異常日志從斷點繼續爬取。
3.根據權利要求1所述的系統,其特征在于,所述的第三方SDK庫預先設置,其中包含公共SDK域名,通過爬取SDK資源網站以及查找域名在不同應用程序出現的頻次來判斷域名是否為公共SDK域名,從而構建第三方SDK庫。
4.根據權利要求1所述的系統,其特征在于,所述的數據采集模塊在開啟爬蟲進程進行網站數據采集時,爬蟲進行首先判斷域名是否合法,若不合法不進行爬取,若合法,判斷域名是否有對應的網站,若有,爬取網站源碼,分析源碼發現對應的企業主體,若不存在網站,則通過在記錄企業信息的網站上根據域名爬取對應的企業主體。
5.根據權利要求1或4所述的系統,其特征在于,所述的數據分析模塊,在計算企業主體的優先級時,設置通過在記錄企業信息的網站上查詢的企業主體的權重為0.5,通過在其他網站查詢出來的企業主體的權重為0.1。
6.根據權利要求1或4所述的系統,其特征在于,所述的數據采集模塊采用異步分布式爬蟲程序,爬蟲程序包含服務端和客戶端兩部分:
(1)服務端啟動爬蟲規則維護線程,執行兩個定時任務,分別為:每5小時將規則爬取狀態重置;每1分鐘同步規則到Redis規則隊列中,供客戶端爬蟲獲取規則;
(2)客戶端發送規則獲取指令給服務端;服務端若沒有規則信息,則返回等待指令給客戶端;服務端如果有規則信息,客戶端從Redis規則隊列中取出規則,觸發爬取指令,對數據進行爬取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心,未經國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011041584.9/1.html,轉載請聲明來源鉆瓜專利網。





