[發明專利]一種BBS頁面自動采集方法有效
| 申請號: | 201410684169.3 | 申請日: | 2014-11-25 |
| 公開(公告)號: | CN104331512B | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 沈文凱;瞿偉 | 申請(專利權)人: | 南京烽火星空通信發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙)32231 | 代理人: | 黃杭飛 |
| 地址: | 210019 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 bbs 頁面 自動 采集 方法 | ||
技術領域
本發明涉及一種互聯網計算機BBS處理技術領域,特別是一種BBS頁面自動采集方法。
背景技術
隨著科技的進步,互聯網信息進入一個爆炸式、多元式的時代,互聯網成為一個巨大的信息庫,互聯網信息采集可以使您在信息采集、資源整合、資金利用、人力投入等方面節約大量資源,廣泛應用于行業門戶網站信息采集、競爭對手情報數據搜集、網站內容系統建設、垂直搜索、輿情監測、科研等領域。
常規的BBS(電子公告牌系統(Bulletin Board System)通過計算機上運行服務軟件,允許用戶終端通過網絡連接,上傳下載數據,與其他用戶交流信息等功能)頁面內容采集程序工作時,依賴于人工提供每個不同BBS站點的頁面解析模板,格式定義文件中定義了BBS帖子中所有有效數據項的XPath,如帖子標題、正文、作者、發表時間,以及回復者、回復內容、回復時間等等。
維護BBS站點頁面解析模板是非常枯燥的,而且采集程序覆蓋的站點越多,工作量越大。若BBS站點改版后,原有的頁面解析模板文件也就隨之‘過期’,需要重新訂制,但是往往很難及時發現并重新訂制,導致一旦某個BBS站點改版,那么在發現之前,這些BBS站點的數據都將異常甚至丟失。
總之現有的BBS站點因為格式多樣化,數據量爆炸式膨脹,監控嚴格等,導致收集難度加大,主要表現在:
1、需要人工配置BBS頁面解析模板,制定對應信息的XPath。
2、網站的海量信息抓取,規則難以統一制定。一般會針對每個站點單獨配置解析模板,工作量大;
3、后繼帶來了海量的規則維護工作,以及站點改版后規則要實時更新的問題;
4、若不能夠及時發現BBS站點改版,那么采集這些BBS站點的數據將會出現異常。
以上技術缺陷對于大型的采集系統這些問題尤為突出,急需通過新的技術方法來取代人工的維護工作。
發明內容
發明目的:本發明所要解決的技術問題是針對現有技術的不足,提供一種BBS頁面自動采集方法。
為了解決上述技術問題,本發明公開了一種BBS頁面自動采集方法,包括以下步驟:
步驟1,采集獲取BBS頁面所有元素信息;
步驟2,交叉對比系統庫中節點元素;
步驟3,若節點名稱相同,比較節點數量;
步驟4,確定節點名稱和節點數量都相同之后,交叉對比的兩個節點標識為當前樓層節點;
步驟5,記錄樓層節點的XPath(XML路徑語言,用來確定XML文檔中某部分位置),完成帖子樓層的分割,樓層內容的XPath提取,實現通用信息采集。
本發明中,步驟1包括互聯網訪問目標BBS帖子頁面,并獲取頁面字節流,將字節流解析成jdom對象,jdom中包含所有Element對應的html標簽,且擁有html標簽的所有屬性和值。
本發明中,步驟2~步驟4包括:
遍歷jdom對象的所有Element:
若Element A 的子節點數量大于1,交叉比較Element A的所有子節點,即所有的子節點與其他所有兄弟節點依次比較;當比較的子節點a和子節點b的節點名稱相同,且所擁有的屬性值相同,則進一步比較子節點a和子節點b的結構;
若子節點a的子節點結構與子節點b的子節點結構相同,即擁有相同名稱、屬性和數量的子節點,則認為子節點a和子節點b結構相同;
若子節點a包含的<A>節點(HTML中<A>標簽節點用于定義超鏈接,用于從一個頁面鏈接到另一個頁面,其最重要的屬性是href,它指示鏈接的目標)數量少于子節點a包含的文本類型節點數量,則認為子節點a節點為樓層節點;
若Element A 的子節點數量為0或1,則認為該節點下的直接子節點不需要劃分樓層。
本發明中,步驟5包括:
記錄樓層節點的XPath,完成帖子樓層的分割;
確定樓層中的有效數據節點,并記錄XPath位置;
樓層結構為左右結構,左邊節點包含樓層作者信息,右邊節點包含發表內容、發表時間;作者信息對應作者節點,即樓層結構左邊節點;作者節點為<a>節點,herf屬性值為作者信息頁面的URL,節點值為作者名稱;發表時間出現在樓層節點中的任何地方,提取方式為按照日期格式進行匹配;發表內容位于樓層節點右邊,存在于兩個以上html文本標簽中,需要將對應的html文本標簽內容追加提取;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京烽火星空通信發展有限公司,未經南京烽火星空通信發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410684169.3/2.html,轉載請聲明來源鉆瓜專利網。





