[發(fā)明專利]行為識別方法及裝置在審
| 申請?zhí)枺?/td> | 202011063117.6 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN114330466A | 公開(公告)日: | 2022-04-12 |
| 發(fā)明(設(shè)計)人: | 黃浩;盧行健;劉長福 | 申請(專利權(quán))人: | 北京達佳互聯(lián)信息技術(shù)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/951;G06F16/955;G06F16/18;G06F16/33 |
| 代理公司: | 北京銀龍知識產(chǎn)權(quán)代理有限公司 11243 | 代理人: | 許靜;黃燦 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 行為 識別 方法 裝置 | ||
本公開關(guān)于一種行為識別方法及裝置,該方法包括:獲取訪問日志,所述訪問日志是通過收集訪問方在訪問目標(biāo)網(wǎng)站時返回的引用信息得到的;從所述訪問日志中提取訪問行為特征;基于所提取的訪問行為特征,確定存在針對所述目標(biāo)網(wǎng)站的爬蟲行為的訪問來源。這樣,通過收集訪問方在訪問目標(biāo)網(wǎng)站時返回的引用信息,從而可基于該引用信息準(zhǔn)確識別訪問方是否存在針對所述目標(biāo)網(wǎng)站的爬蟲行為,提高識別效果。
技術(shù)領(lǐng)域
本公開涉及計算機技術(shù)領(lǐng)域,尤其涉及一種行為識別方法及裝置。
背景技術(shù)
相關(guān)技術(shù)中,爬蟲攻擊通常會通過IP代理池進行多級代理,在分鐘或秒級內(nèi)進行IP更換,很難以溯源是哪些個人或企業(yè)進行的爬蟲攻擊。而傳統(tǒng)識別爬蟲行為的方法是通過統(tǒng)計某IP在一段時間內(nèi)訪問目標(biāo)網(wǎng)站產(chǎn)生的統(tǒng)一資源定位系統(tǒng)(Uniform ResourceLocator,URL)總量,在該值超過設(shè)定閾值的情況下,認為該IP來源為爬蟲。
然而,在多個正常用戶共用一個IP的情況下,很容易將這些正常用戶誤認為是爬蟲,或者,在用戶通過頻繁更換IP來訪問的情況下,無法識別爬蟲,造成漏判。可見,現(xiàn)有爬蟲行為識別方式不夠準(zhǔn)確,識別效果較差。
發(fā)明內(nèi)容
本公開提供一種行為識別方法及裝置,以至少解決相關(guān)技術(shù)中爬蟲行為識別方式不夠準(zhǔn)確,識別效果較差的問題。本公開的技術(shù)方案如下:
根據(jù)本公開實施例的第一方面,提供一種行為識別方法,包括:
獲取訪問日志,所述訪問日志是通過收集訪問方在訪問目標(biāo)網(wǎng)站時返回的引用信息得到的;
從所述訪問日志中提取訪問行為特征;
基于所提取的訪問行為特征,確定存在針對所述目標(biāo)網(wǎng)站的爬蟲行為的訪問來源。
根據(jù)本公開實施例的第二方面,提供一種行為識別裝置,包括:
獲取模塊,被配置為執(zhí)行獲取訪問日志,所述訪問日志是通過收集訪問方在訪問目標(biāo)網(wǎng)站時返回的引用信息得到的;
提取模塊,被配置為執(zhí)行從所述訪問日志中提取訪問行為特征;
確定模塊,被配置為執(zhí)行基于所提取的訪問行為特征,確定存在針對所述目標(biāo)網(wǎng)站的爬蟲行為的訪問來源。
根據(jù)本公開實施例的第三方面,提供一種行為識別裝置,包括:
處理器;
用于存儲所述處理器可執(zhí)行指令的存儲器;
其中,所述處理器被配置為執(zhí)行所述指令,以實現(xiàn)如上述第一方面所述的行為識別方法。
根據(jù)本公開實施例的第四方面,提供一種計算機程序產(chǎn)品,包括可執(zhí)行指令,當(dāng)所述可執(zhí)行指令在計算機上運行時,使得計算機能夠執(zhí)行如上述第一方面所述的行為識別方法。
根據(jù)本公開實施例的第五方面,提供一種存儲介質(zhì),當(dāng)所述存儲介質(zhì)中的指令由行為識別裝置執(zhí)行時,使得行為識別裝置能夠執(zhí)行上述第一方面所述的行為識別方法。
本公開的實施例提供的技術(shù)方案至少帶來以下有益效果:
獲取訪問日志,所述訪問日志是通過收集訪問方在訪問目標(biāo)網(wǎng)站時返回的引用信息得到的;從所述訪問日志中提取訪問行為特征;基于所提取的訪問行為特征,確定存在針對所述目標(biāo)網(wǎng)站的爬蟲行為的訪問來源。這樣,通過收集訪問方在訪問目標(biāo)網(wǎng)站時返回的引用信息,從而可基于該引用信息準(zhǔn)確識別訪問方是否存在針對所述目標(biāo)網(wǎng)站的爬蟲行為,提高識別效果。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京達佳互聯(lián)信息技術(shù)有限公司,未經(jīng)北京達佳互聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011063117.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:顯示觸摸裝置和控制方法
- 下一篇:素材確定方法、裝置及電子設(shè)備
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





