[發(fā)明專利]網(wǎng)站內(nèi)容監(jiān)控方法和裝置有效
| 申請?zhí)枺?/td> | 201710195390.6 | 申請日: | 2017-03-29 |
| 公開(公告)號: | CN108664489B | 公開(公告)日: | 2022-12-23 |
| 發(fā)明(設(shè)計)人: | 唐文韜;鄭云文;胡珀;鄭興;郭晶;張強;范宇河;王放;楊勇 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 11018 | 代理人: | 李華;王琦 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)站 內(nèi)容 監(jiān)控 方法 裝置 | ||
1.一種網(wǎng)站內(nèi)容監(jiān)控方法,其特征在于其包括:
接收第一爬蟲程序根據(jù)預(yù)設(shè)的第一網(wǎng)站提供的第一網(wǎng)站內(nèi)容的信息從第二網(wǎng)站爬取到的第二網(wǎng)站內(nèi)容的信息;
根據(jù)所述第二網(wǎng)站內(nèi)容的信息確定所述第二網(wǎng)站收錄所述第一網(wǎng)站內(nèi)容的情況;
根據(jù)所述第二網(wǎng)站收錄所述第一網(wǎng)站內(nèi)容的情況,統(tǒng)計所述第二網(wǎng)站對所述第一網(wǎng)站的盜版數(shù)據(jù);
其中,所述方法進(jìn)一步包括:
獲取訪問第一網(wǎng)站的第二爬蟲程序的特征;
根據(jù)預(yù)設(shè)的監(jiān)控策略對所述第二爬蟲程序的特征進(jìn)行統(tǒng)計,包括:統(tǒng)計第二爬蟲程序是低頻爬取還是高頻爬取、爬取的路徑是否是可疑路徑、是否是用采集器爬取。
2.根據(jù)權(quán)利要求1的方法,其中,第一網(wǎng)站內(nèi)容和第二網(wǎng)站內(nèi)容包括網(wǎng)絡(luò)出版物和/或在線播放的媒體內(nèi)容。
3.根據(jù)權(quán)利要求2的方法,其中,所述第一網(wǎng)站內(nèi)容的信息包括至少一個第一摘要信息項,所述第二網(wǎng)站內(nèi)容的信息包括:至少一個第二摘要信息項;
所述確定第二網(wǎng)站收錄第一網(wǎng)站內(nèi)容的情況包括:判斷所述至少一個第一摘要信息項是否與所述至少一個第二摘要信息項相匹配,如果匹配,則確定所述第二網(wǎng)站收錄了所述第二網(wǎng)站內(nèi)容。
4.根據(jù)權(quán)利要求3的方法,其中,第一爬蟲程序根據(jù)第一網(wǎng)站提供的第一網(wǎng)站內(nèi)容的信息從第二網(wǎng)站爬取第二網(wǎng)站內(nèi)容的信息包括:
獲取第二網(wǎng)站中用于在第二網(wǎng)站中搜索第二網(wǎng)站內(nèi)容的接口;
通過所述接口,根據(jù)所述至少一個第一摘要信息項,搜索第二網(wǎng)站內(nèi)容的信息。
5.根據(jù)權(quán)利要求1的方法,其中,根據(jù)所述第二網(wǎng)站收錄所述第一網(wǎng)站內(nèi)容的情況,統(tǒng)計所述第二網(wǎng)站對所述第一網(wǎng)站的盜版數(shù)據(jù)包括:
當(dāng)確定所述第二網(wǎng)站收錄了所述第一網(wǎng)站內(nèi)容時,統(tǒng)計所述第二網(wǎng)站收錄第一網(wǎng)站內(nèi)容的數(shù)量。
6.根據(jù)權(quán)利要求3的方法,其中,所述第一網(wǎng)站內(nèi)容和第二網(wǎng)站內(nèi)容為網(wǎng)絡(luò)出版物,所述根據(jù)所述第二網(wǎng)站收錄所述第一網(wǎng)站內(nèi)容的情況,統(tǒng)計所述第二網(wǎng)站對所述第一網(wǎng)站的盜版數(shù)據(jù)包括:
當(dāng)確定所述第二網(wǎng)站收錄了所述第一網(wǎng)站的網(wǎng)絡(luò)出版物時,統(tǒng)計第二網(wǎng)站收錄的第一網(wǎng)站的網(wǎng)絡(luò)出版物章節(jié)和對應(yīng)的第一網(wǎng)站的網(wǎng)絡(luò)出版物的章節(jié)更新時間差。
7.根據(jù)權(quán)利要求6的方法,其中,統(tǒng)計第二網(wǎng)站收錄的第一網(wǎng)站的網(wǎng)絡(luò)出版物章節(jié)和對應(yīng)的第一網(wǎng)站的網(wǎng)絡(luò)出版物的章節(jié)更新時間差包括:
獲取第一網(wǎng)站的第一網(wǎng)絡(luò)出版物的第一標(biāo)識;
從第二網(wǎng)站中的網(wǎng)絡(luò)出版物的閱讀入口中,獲取第二網(wǎng)站收錄的、和第一網(wǎng)絡(luò)出版物相同的第二網(wǎng)絡(luò)出版物的第二標(biāo)識;
定期通過所述第一標(biāo)識和第二標(biāo)識獲取第一網(wǎng)絡(luò)出版物和第二網(wǎng)絡(luò)出版物的章節(jié)標(biāo)題;
記錄首次獲取到第一出版物的第一章節(jié)標(biāo)題的時間和對應(yīng)的第二網(wǎng)絡(luò)出版物的第二章節(jié)標(biāo)題的時間;
比較首次獲取到第一章節(jié)標(biāo)題的時間和第二章節(jié)標(biāo)題的時間,計算二者的時間差,將該時間差作為第二網(wǎng)站的網(wǎng)絡(luò)出版物章節(jié)和第一網(wǎng)站對應(yīng)的網(wǎng)絡(luò)出版物的章節(jié)更新時間差。
8.根據(jù)權(quán)利要求1-7任一項權(quán)利要求的方法,其中,所述方法進(jìn)一步包括:
解析在預(yù)定時間段內(nèi)訪問第二網(wǎng)站的每日平均IP地址數(shù)量;
其中,統(tǒng)計第二網(wǎng)站對第一網(wǎng)站的盜版數(shù)據(jù)進(jìn)一步包括:統(tǒng)計在預(yù)定期間段內(nèi)訪問第二網(wǎng)站的每日平均IP地址數(shù)量。
9.根據(jù)權(quán)利要求1的方法,其中,
獲取訪問第一網(wǎng)站的第二爬蟲程序的特征包括:
獲取所述第二爬蟲程序訪問第一網(wǎng)站的路徑,根據(jù)所述路徑和預(yù)設(shè)的訪問第一網(wǎng)站受保護(hù)的接口的路徑,計算所述第二爬蟲程序在預(yù)定的時間段內(nèi)訪問第一網(wǎng)站受保護(hù)的接口占第二爬蟲程序訪問第一網(wǎng)站的接口的比例;
根據(jù)預(yù)設(shè)的監(jiān)控策略對所述第二爬蟲程序特征進(jìn)行統(tǒng)計包括:
判斷所述比例是否大于預(yù)設(shè)的比例;
如果所述比例大于預(yù)設(shè)的比例,則將所述第二爬蟲程序計入到訪問第一網(wǎng)站的爬蟲數(shù)目中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710195390.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 一種范圍廣、力度大的校內(nèi)監(jiān)控系統(tǒng)
- 一種監(jiān)控的方法及系統(tǒng)
- 設(shè)備的監(jiān)控方法、裝置、系統(tǒng)和空調(diào)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 設(shè)備監(jiān)控方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 風(fēng)險雷達(dá)預(yù)警的監(jiān)控方法及系統(tǒng)
- 區(qū)塊鏈網(wǎng)絡(luò)監(jiān)控系統(tǒng)、裝置及方法
- 基于機器視覺的車站客流安全智能監(jiān)控系統(tǒng)





