[發明專利]一種BBS頁面自動采集方法有效
| 申請號: | 201410684169.3 | 申請日: | 2014-11-25 |
| 公開(公告)號: | CN104331512B | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 沈文凱;瞿偉 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙)32231 | 代理人: | 黃杭飛 |
| 地址: | 210019 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 bbs 頁面 自動 采集 方法 | ||
1.一種BBS頁面自動采集方法,其特征在于,包括以下步驟:
步驟1,采集獲取BBS頁面所有元素信息;
步驟2,交叉對比系統庫中節點元素;
步驟3,若節點名稱相同,比較節點數量;
步驟4,確定節點名稱和節點數量都相同之后,交叉對比的兩個節點標識為當前樓層節點;
步驟5,記錄樓層節點的XPath路徑,完成帖子樓層的分割,樓層內容的XPath提取,實現通用信息采集;
步驟1包括互聯網訪問目標BBS帖子頁面,并獲取頁面字節流,將字節流解析成jdom對象,jdom中包含所有Element對應的html標簽,且擁有html標簽的所有屬性和值;
步驟2~步驟4包括:
遍歷jdom對象的所有Element:
若Element A的子節點數量大于1,交叉比較Element A的所有子節點,即所有的子節點與其他所有兄弟節點依次比較;當比較的子節點a和子節點b的節點名稱相同,且所擁有的屬性值相同,則進一步比較子節點a和子節點b的結構;
若子節點a的子節點結構與子節點b的子節點結構相同,即擁有相同名稱、屬性和數量的子節點,則認為子節點a和子節點b結構相同;
若子節點a包含的<A>節點數量少于子節點a包含的文本類型節點數量,則認為子節點a節點為樓層節點;
若Element A的子節點數量為0或1,則認為該節點下的直接子節點不需要劃分樓層。
2.根據權利要求1所述的一種BBS頁面自動采集方法,其特征在于,步驟5包括:
記錄樓層節點的XPath,完成帖子樓層的分割;
確定樓層中的有效數據節點,并記錄XPath位置;
樓層結構為左右結構,左邊節點包含樓層作者信息,右邊節點包含發表內容、發表時間;作者信息對應作者節點,即樓層結構左邊節點;作者節點為<a>節點,herf屬性值為作者信息頁面的URL,節點值為作者名稱;發表時間出現在樓層節點中的任何地方,提取方式為按照日期格式進行匹配;發表內容位于樓層節點右邊,存在于兩個以上html文本標簽中,需要將對應的html文本標簽內容追加提取;
保存該BBS站點的貼子規則,將分析過程中記錄的有效數據XPath生成頁面解析模板,供采集使用。
3.根據權利要求2所述的一種BBS頁面自動采集方法,其特征在于,步驟5包括:采集程序執行時,檢查要采集的BBS站點是否存在頁面解析模板,如果存在且模板沒有過期,那么直接使用頁面解析模板采集;如果發現沒有模板或模板已經過期,那么就通過上述步驟自動解析生成頁面解析模板。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410684169.3/1.html,轉載請聲明來源鉆瓜專利網。





