[發明專利]URL的合法性識別方法及裝置在審
| 申請號: | 201510729115.9 | 申請日: | 2015-10-30 |
| 公開(公告)號: | CN105426759A | 公開(公告)日: | 2016-03-23 |
| 發明(設計)人: | 王巍巍;彭程;黃慶偉;張軍宏;羅雪峰 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | url 合法性 識別 方法 裝置 | ||
【技術領域】
本發明涉及安全技術,尤其涉及一種URL的合法性識別方法及裝置。
【背景技術】
隨著通信技術的發展,終端集成了越來越多的功能,從而使得終端的系統功能列表中包含了越來越多相應的應用(Application,APP)。有些應用中會涉及接收發送方預先編輯的信息的功能,例如,短消息、彩信或電子郵件等。這些信息中,可能會包含一對象的統一資源定位符(UniformResourceLocator,URL),終端則可以直接根據所述URL,執行相應操作。例如,訪問所述URL對應的目標對象,或者,再例如,根據用戶點擊所述URL的操作信息,訪問所述URL對應的目標對象。
然而,由于信息生成的隨意性,不法分子可以很容易將不安全對象例如,病毒、木馬等植入信息,即將不安全對象的URL寫在信息中,因此,終端在獲得信息中所包含的URL之后,很可能會訪問不安全對象,會使得終端及其用戶受到不同程度的破壞,從而導致了信息處理的安全性的降低。
【發明內容】
本發明的多個方面提供一種URL的合法性識別方法及裝置,用以提高信息處理的安全性。
本發明的一方面,提供一種URL的合法性識別方法,包括:
獲取待識別URL;
根據所述待識別URL,獲得與所述待識別URL所對應的合法URL,以作為比對對象;
計算所述待識別URL與所述比對對象之間的相似度;
根據所述相似度,識別所述待識別URL的合法性。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述待識別URL,獲得與所述待識別URL所對應的合法URL,以作為比對對象,包括:
根據所述待識別URL和合法URL倒排索引,獲得與所述待識別URL所對應的合法URL,以作為所述比對對象。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述待識別URL和合法URL倒排索引,獲得與所述待識別URL所對應的合法URL,以作為所述比對對象之前,還包括:
采集至少一個合法URL;
利用N-Gram模型,對所述至少一個合法URL中每個合法URL進行分詞處理,以獲得分詞結果;
根據所述每個合法URL和所述每個合法URL的分詞結果,獲得合法URL倒排索引。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述利用N-Gram模型,對所述至少一個合法URL中每個合法URL進行分詞處理,以獲得分詞結果,包括:
根據所述每個合法URL,獲得所述每個合法URL的域名;
刪除所述每個合法URL的域名的前綴和后綴,以獲得所述每個合法URL的中心詞;
利用N-Gram模型,對所述每個合法URL的中心詞進行分詞處理,以獲得所述分詞結果。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述相似度,識別所述待識別URL的合法性,包括:
若所述相似度等于1,且所述待識別URL的后綴與所述比對對象的后綴一致,識別所述待識別URL為合法URL;或者
若所述相似度等于1,且所述待識別URL的后綴與所述比對對象的后綴不一致,識別所述待識別URL為疑似不合法URL;或者
若所述相似度大于或等于第一閾值且小于1,識別所述待識別URL為不合法URL;或者
若所述相似度大于或等于第二閾值且小于所述第一閾值,識別所述待識別URL為疑似不合法URL;所述第二閾值小于所述第一閾值;或者
若所述相似度小于所述第二閾值或等于1,識別所述待識別URL為合法URL。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述相似度,識別所述待識別URL的合法性之前,還包括:
利用所述至少一個合法URL,對至少一個樣本URL進行合法性識別處理,以獲得識別結果;
根據所述識別結果和所述至少一個樣本URL中每個樣本URL的標注結果,獲得所述第一閾值和所述第二閾值。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述相似度,識別所述待識別URL的合法性之后,包括:
向終端發送所述識別的結果,以使得
所述終端展示所述識別的結果;和/或
所述終端根據所述識別的結果,允許或禁止根據所述待識別URL執行訪問操作。
本發明的另一方面,提供一種URL的合法性識別裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510729115.9/2.html,轉載請聲明來源鉆瓜專利網。





