[發明專利]網址識別方法和裝置有效
| 申請號: | 201610003891.5 | 申請日: | 2016-01-04 |
| 公開(公告)號: | CN105447204B | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 秦鐸浩 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司11204 | 代理人: | 王達佐,馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網址 識別 方法 裝置 | ||
技術領域
本申請涉及計算機技術領域,具體涉及互聯網技術領域,尤其涉及網址識別方法和裝置。
背景技術
在網絡上存在著大量的垃圾網站,虛假的垃圾網站經常會誘導人們點擊,以騙取點擊流量,甚至是騙取用戶名和密碼等隱私信息。因此,需要對這些垃圾網址進行主動識別,對用戶做出相應的提醒。
現有技術中,對垃圾網址的識別主要通過設置網頁白名單、設置網頁黑名單或者識別從網站抓取的網頁內容等方式。然而,白名單方式無法列舉所有正常網站的網址,黑名單方式則無法對新產生的垃圾網址進行識別,對抓取的網頁內容進行識別則可能因為網站設置了禁止抓取或者克隆正常站點騙取用戶密碼的偽造網站等情形而無法準確識別垃圾網址。因此,需要擴大垃圾網址識別的識別范圍。
發明內容
本申請的目的在于提出一種改進的網址識別方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請提供了一種網址識別方法,所述方法包括:獲取待識別網址;根據預設規則對所述待識別網址進行切分處理,并將切分后的各個網址部分轉換為與各網址部分的內容類型對應的類型標識;根據所述待識別網址所對應的類型標識序列,確定所述待識別網址為非垃圾網址的概率值;根據所述概率值,生成網址識別信息。
在一些實施例中,所述根據所述待識別網址所對應的類型標識序列,確定所述待識別網址為非垃圾網址的概率值,包括:將所述類型標識序列作為隱馬爾可夫模型的觀測序列,并根據前向算法以及預先訓練的隱馬爾可夫模型參數計算所述觀測序列對應的概率值;將計算出的概率值作為所述待識別網址為非垃圾網址的概率值。
在一些實施例中,在所述獲取待識別網址之前,所述方法還包括:從日志服務器中獲取非垃圾網址集合;根據預設規則對所述非垃圾網址集合中的每個網址進行切分處理,并將每個網址切分后的各個網址部分轉換為與各網址部分的內容類型對應的類型標識,以生成包含每個網址對應的類型標識序列的類型標識序列集合;將所述類型標識序列集合作為隱馬爾可夫模型的待訓練觀測序列集合,并根據最大期望算法確定隱馬爾可夫模型參數;將確定的隱馬爾模型參數作為預先訓練的隱馬爾科夫模型參數,或者根據確定的隱馬爾科夫模型參數對預先訓練的隱馬爾科夫模型參數進行更新。
在一些實施例中,所述最大期望算法為前向后向算法。
在一些實施例中,所述根據所述概率值,生成網址識別信息,包括:響應于所述概率值大于預設概率閾值,生成非垃圾網址提醒信息。
在一些實施例中,所述根據所述概率值,生成網址識別信息,包括:響應于所述概率值小于預設概率閾值,生成垃圾網址提醒信息。
在一些實施例中,在所述響應于所述概率值小于預設概率閾值,生成垃圾網址提醒信息之后,所述方法還包括:接收用戶對所述待識別網址是垃圾網址或非垃圾網址的確認信息;將確認為非垃圾網址的待識別網址對應的類型標識序列作為隱馬爾可夫模型的待訓練觀測序列,并通過最大期望算法對預先訓練的隱馬爾可夫模型參數進行更新。
第二方面,本申請提供了一種網址識別裝置,所述裝置包括:獲取單元,配置用于獲取待識別網址;切分轉換單元,配置用于根據預設規則對所述待識別網址進行切分處理,并將切分后的各個網址部分轉換為與各網址部分的內容類型對應的類型標識;概率確定單元,配置用于根據所述待識別網址所對應的類型標識序列,確定所述待識別網址為非垃圾網址的概率值;生成單元,配置用于根據所述概率值,生成網址識別信息。
在一些實施例中,所述概率確定單元包括:計算子單元,配置用于將所述類型標識序列作為隱馬爾可夫模型的觀測序列,并根據前向算法以及預先訓練的隱馬爾可夫模型參數計算所述觀測序列對應的概率值;概率確定子單元,配置用于將計算出的概率值作為所述待識別網址為非垃圾網址的概率值。
在一些實施例中,所述裝置還包括:非垃圾網址集合獲取單元,配置用于從日志服務器中獲取非垃圾網址集合;非垃圾網址集合切分轉換單元,配置用于根據預設規則對所述非垃圾網址集合中的每個網址進行切分處理,并將每個網址切分后的各個網址部分轉換為與各網址部分的內容類型對應的類型標識,以生成包含每個網址對應的類型標識序列的類型標識序列集合;模型參數計算單元,配置用于將所述類型標識序列集合作為隱馬爾可夫模型的待訓練觀測序列集合,并根據最大期望算法確定隱馬爾可夫模型參數;模型參數確定與更新單元,配置用于將確定的隱馬爾模型參數作為預先訓練的隱馬爾科夫模型參數,或者根據確定的隱馬爾科夫模型參數對預先訓練的隱馬爾科夫模型參數進行更新。
在一些實施例中,所述最大期望算法為前向后向算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610003891.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:晶圓分批流程卡的生成方法及系統
- 下一篇:音頻信息獲取方法及裝置





