[發明專利]識別官方網站的方法和系統有效
| 申請號: | 201210464529.X | 申請日: | 2012-11-16 |
| 公開(公告)號: | CN102999590A | 公開(公告)日: | 2013-03-27 |
| 發明(設計)人: | 于春功;張超旭 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F11/34 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 官方網站 方法 系統 | ||
技術領域
本發明實施例涉及互聯網技術領域,具體涉及識別官方網站的方法和系統。
背景技術
互聯網,即廣域網、局域網及單機按照一定的通訊協議組成的國際計算機網絡。互聯網是指將兩臺計算機或者是兩臺以上的計算機終端、客戶端、服務端通過計算機信息技術的手段互相聯系起來的結果,人們可以與遠在千里之外的朋友相互發送郵件、共同完成一項工作、共同娛樂。
互聯網上每天會產生大量的新的文件,其中大部分是新的軟件和升級補丁包,這些新的軟件和升級補丁包可以作為白名單數據庫中的文件。為了及時將這些新的軟件和升級補丁包收錄進入白名單數據庫中,首先要查看這些軟件的發布渠道,通常可以通過查看這些軟件的官方網站來確定發布渠道,然后對這些官方網站進行監控。
傳統的識別軟件官方網站的方法包括以下兩種:
(1)通過人工識別軟件的官方網站。
(2)通過搜索引擎對一些已知軟件名稱的軟件進行半自動抓取,并分析軟件的頁面樣式,來識別軟件的官方網站。
上述第一種方法的識別準確率較高,但是召回率較低,并且,通過人工識別每天處理的軟件數量很有限,識別效率低、成本高,該方法對于解決少量的重要軟件比較適用,但是對整個互聯網的所有軟件來說,這個方法是不可行的。
上述第二種方法只能針對軟件名稱已知的一些軟件進行識別,并且識別過程依賴于搜索引擎質量的好壞,識別的準確率和監控的召回率很難保證。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的識別官方網站的方法和系統。
根據本發明的一個方面,提供了一種識別官方網站的方法,包括:
獲取軟件的下載日志;
對所述下載日志進行分析,從所述下載日志中提取候選網站;
將所述候選網站中符合預設條件的網站進行過濾;
從過濾之后的候選網站中確認出軟件的官方網站。
本發明實施例中,下載日志包括軟件下載的網站信息,
所述對所述下載日志進行分析,從所述下載日志中提取候選網站,包括:
從所述下載日志中解析出所述軟件下載的網站信息;
從所述軟件下載的網站信息中提取候選網站標識信息。
本發明實施例中,符合預設條件的網站包括下載網站,
將所述候選網站中符合預設條件的網站進行過濾,包括:
統計每個候選網站下下載的軟件的個數FCOUNT和軟件下載的總次數DCOUNT;
將所述候選網站下軟件下載的總次數DCOUNT與下載的軟件的個數FCOUNT的比值DCOUNT/FCOUNT與預設的第一閾值進行比較;
當所述比值DCOUNT/FCOUNT大于所述第一閾值時,確定所述候選網站為下載網站;
將所述下載網站過濾。
本發明實施例中,當所述比值DCOUNT/FCOUNT小于或等于所述第一閾值時,還包括:
將所述候選網站下下載的軟件的個數FCOUNT與預設的第二閾值進行比較;
當下載的軟件的個數FCOUNT大于或等于所述第二閾值時,確定所述網站為下載網站;
將所述下載網站過濾。
本發明實施例中,符合預設條件的網站包括非可執行文件的下載網站,所述軟件的下載日志包括下載的軟件文件名,
將所述候選網站中的符合預設條件的網站進行過濾,包括:
從所述軟件的下載日志中解析出所述候選網站下下載的軟件文件名;
判斷所述軟件文件名中是否存在非可執行文件的名稱;
若存在,則確定所述候選網站為非可執行文件的下載網站;
將所述非可執行文件的下載網站過濾。
本發明實施例中,符合預設條件的網站還包括游戲網站,
將所述候選網站中的符合預設條件的網站進行過濾,還包括:
抓取所述候選網站的頁面內容;
將所述頁面內容輸入到預先設置的網站分類器中,通過所述網站分類器過濾所述候選網站中的游戲網站。
本發明實施例中,網站分類器通過以下步驟獲得:
分別獲取多個官方網站樣本和游戲網站樣本;
提取所述官方網站樣本的頁面內容,以及所述游戲網站樣本的頁面內容,并對所述頁面內容進行分詞處理;
統計分詞之后的官方網站樣本的頁面內容對應的詞頻,生成向量V-SOFT,統計分詞之后的游戲網站樣本的頁面內容對應的詞頻,生成向量V-GAME;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210464529.X/2.html,轉載請聲明來源鉆瓜專利網。





