[發明專利]基于匈牙利匹配算法的釣魚網頁檢測方法無效
| 申請號: | 201010139929.4 | 申請日: | 2010-04-02 |
| 公開(公告)號: | CN101826105A | 公開(公告)日: | 2010-09-08 |
| 發明(設計)人: | 張衛豐;貢亮;張迎周;周國強;陸柳敏;許碧娣;田先桃;李濤賢;曾兵;彭寅;陸柳青 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 葉連生 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 匈牙利 匹配 算法 釣魚 網頁 檢測 方法 | ||
技術領域
本發明涉及一種釣魚網站檢測的方法,主要從相近性檢測角度利用匈牙利匹配算法對釣魚網頁進行分析和識別,屬于信息安全與信息獲取的交叉領域。
背景技術
“釣魚網站”是隨著網絡普及和在線交易增加而變得異常猖獗的網絡詐騙行為。“釣魚網站”是犯罪分子做出的詐騙網站,“釣魚網站”通常與銀行網站或其他知名網站幾乎完全相同,從而引誘網站使用者在“釣魚網站”上提交出敏感信息(如:用戶名、口令、帳號ID、ATM?PIN碼或信用卡詳細信息等)。最典型的網絡釣魚攻擊過程如下:首先將用戶引誘到一個通過精心設計與目標組織的網站非常相似的釣魚網站上,然后獲取用戶在該釣魚網站上輸入的個人敏感信息,例如銀行帳號、銀行密碼等。通常這個攻擊過程不會讓受害者警覺。這些個人信息對釣魚網站持有者具有非常大的吸引力,通過使用竊取到的個人信息,他們可以假冒受害者進行欺詐性金融交易,獲得極大的經濟利益,而受害者們卻因此而遭受到巨大的經濟損失,非但如此,被竊取的個人信息還可能被用于其他非法活動。如何識別釣魚網站,如何保證網站信息傳輸的保密完整性,愈發的顯示出其重要性和必要性。
當前釣魚網站識別主要靠計算機自動識別和人工識別兩種方式,人工識別采用黑名單機制,用戶對某個網站進行舉報,通過人工鑒定是否為釣魚網站,這樣顯然速度太慢。[Jackson2007]通過實驗來分析人工檢測釣魚網頁的效果。它首先將參加實驗的人員分成三組(訓練過的組、未訓練過的組和未看過釣魚網頁驗證技術的小組)。實驗結果顯示:用戶比較難于處理視覺相似的釣魚網頁,另外,驗證技術培訓并未幫助用戶辨別網頁的真假。計算機自動識別目前主要是基于頁面視覺相似性檢測方式判斷是否為釣魚網站,電腦通過抽取網頁的視覺,文字特征與大多數主要的合法網站頁面進行相似度對比或進行機器學習,從而判斷是否為釣魚網站。
Liu等提出利用DOM樹之間的相似性來檢測釣魚網頁[Liu2005,Liu2006],該方法認為釣魚網頁為了欺騙用戶,往往展現比較相近的界面,否則不易欺騙用戶,所以真實網頁與釣魚網頁在布局上應該非常接近。Liu等利用釣魚網站與真實網站之間的視覺相似性來檢測釣魚網站[Liu2005,Liu2006],該方法首先提取真實網頁與待檢測網頁的圖像特征,然后計算相似性,當相似性大于某一設定閥值時,則認為待檢測網頁為釣魚網頁;Angelo等通過比較網頁HTML標記之間的相似性計算網頁間相似性[Rosiello2007]。
Zhang在2007年提出了一種新穎的基于內容的檢測釣魚網頁的方法——CANTINA[Zhang2007]。該方法通過借助第三方的工具(比如搜索引擎)來檢測釣魚網頁,它首先統計網頁中的TF-IDF,把TF-IDF排序靠前的幾個詞條利用搜索引擎檢索,如果該網頁不出現在搜索結果的前面30個結果中,則認為是釣魚網頁。該方法具有較高的精度和較小的FP。但是該方法的效果值得商榷。我們做了對應的實驗,結果發現:很多釣魚網頁可以在搜索引擎中搜索到,并且結果比較靠前。這可能跟釣魚網頁制作者做了搜索引擎優化有關。另外,這種方法不具有實際的可行性,一方面,Google搜索已經不提供用戶通過API來訪問其搜索服務,意味著這樣的檢測不能通過程序自動實現;另外,Google對來自同一IP的每天的搜索次數進行了限制,意味著不能應付大量的釣魚網頁檢測。由此看來,這種寄生于第三方服務的方法正失去其意義。
此外,Nimeh2007從釣魚網頁傳播的角度提出了一種特征提取方法[Nimeh2007]。該方法主要比較了六種機器學習方法在郵件特征分類上的效果:Logistic?Regression(LR),Classification?and?Regression?Trees(CART),BayesianAdditive?Regression?Trees(BART),Support?Vector?Machines(SVM),Random?Forests(RF),and?Neural?Networks(NNet);數據集采用1171個包含phishing內容的郵件和1718個合法郵件,對于每個郵件提取43個特征。這種方法拓展了釣魚網頁的特征,在一定程度上進一步提高了釣魚網頁檢測的精度,但是這種方法仍然在抽取釣魚網頁特征時仍然只是采用了單個網頁的信息,因而容易被釣魚網頁制作者欺騙。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010139929.4/2.html,轉載請聲明來源鉆瓜專利網。





