[發(fā)明專利]透過分析網頁結構抓取網站信息的方法無效
| 申請?zhí)枺?/td> | 200880017826.1 | 申請日: | 2008-05-29 |
| 公開(公告)號: | CN101689176A | 公開(公告)日: | 2010-03-31 |
| 發(fā)明(設計)人: | 崔文圣;韓萬鎮(zhèn);金泰均 | 申請(專利權)人: | 怡斯福樂株式會社 |
| 主分類號: | G06F17/00 | 分類號: | G06F17/00 |
| 代理公司: | 北京華夏博通專利事務所 | 代理人: | 劉 俊 |
| 地址: | 韓國首*** | 國省代碼: | 韓國;KR |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 透過 分析 網頁 結構 抓取 網站 信息 方法 | ||
1.一種透過網頁結構分析以確定網站信息的方法,包括:
當一網頁開始作動時,產生一動作開始訊息,該動作開始訊息含有所核發(fā)的身份認證以識別各別網頁;
當一網頁開始作動時,產生一動作終止訊息,該動作終止訊息含有網頁位置,該網頁位置關于一對應網頁以及透過該身份認證確定一對應網頁是否為一主頁面或一次頁面的信息;
當已加載所有網頁時,產生一文件終止訊息,該文件終止訊息含有分析何網頁已被作動的信息;
收集該等訊息并產生一訊息數(shù)據(jù)庫;以及
根據(jù)該訊息數(shù)據(jù)庫的分析,確定一特定使用者的參訪狀態(tài)的網站信息以及該網站的存取狀態(tài)。
2.如權利要求1所述的方法,其中,
當該復數(shù)個網頁被作動時,根據(jù)網頁依序產生該動作開始訊息,并且根據(jù)該加載順序隨機產生該動作終止訊息以及該文件終止訊息;以及
所收集的關于產生該等訊息的順序的信息儲存于該訊息數(shù)據(jù)庫中。
3.如權利要求1所述的方法,其中一訊息數(shù)據(jù)庫的產生包括:于一樹狀結構,透過各別訊息自該主頁面至次頁面,產生有一特定網站的復數(shù)個網頁被確定的訊息數(shù)據(jù)庫。
4.如權利要求1所述的方法,其中一動作開始訊息的產生包括:為確定該對應網頁是否為第一次參訪,確認關于該對應網頁的身份認證信息是否儲存于該訊息數(shù)據(jù)庫中。
5.如權利要求1所述的方法,當該網頁執(zhí)行一對應于一復合頁面的重新整理功能時,進一步包括:
以一現(xiàn)存身份認證比較一核發(fā)至該次頁面的身份認證;
執(zhí)行該比較的一分析;以及
確定該復合頁面是否重新整理。
6.如權利要求1所述的方法,當該網頁執(zhí)行一對應于一單一頁面的重新整理功能時,進一步包括:
產生一標題變更訊息;以及
當該網頁的內部內容已下載時,產生一額外的下載終止訊息,其中該單一頁面的重新整理狀態(tài)根據(jù)該標題變更訊息或該下載終止訊息而確定。
7.如權利要求1所述的方法,當于一復合頁面中僅該次頁面變更時,進一步包括:
維護該次頁面的一工作身份認證;
透過所維護的該工作身份認證,自該訊息數(shù)據(jù)庫搜尋該對應網頁的一位置;以及
當現(xiàn)用的網頁位置不同于關于所搜尋的網頁的網頁位置信息時,辨識該網頁經變更。
8.如權利要求1所述的方法,其中一文件終止訊息的產生包括:
確認一標識是否額外地附加于該對應網頁;以及
當一標識附加于該對應網頁時,產生關于該標識的現(xiàn)存信息。
9.如權利要求8所述的方法,其中,
關于該標識的該現(xiàn)存信息包括標識位置信息以及標識內容信息;以及
該現(xiàn)存信息儲存于一額外數(shù)據(jù)庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于怡斯福樂株式會社,未經怡斯福樂株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200880017826.1/1.html,轉載請聲明來源鉆瓜專利網。





