[發(fā)明專利]一種自動解析論壇網(wǎng)站數(shù)據(jù)的方法有效
| 申請?zhí)枺?/td> | 201911034106.2 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110764781B | 公開(公告)日: | 2022-06-14 |
| 發(fā)明(設(shè)計)人: | 陳強(qiáng);欒江霞;章正道 | 申請(專利權(quán))人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F8/41 | 分類號: | G06F8/41;G06F16/955 |
| 代理公司: | 廈門市精誠新創(chuàng)知識產(chǎn)權(quán)代理有限公司 35218 | 代理人: | 何家富 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自動 解析 論壇 網(wǎng)站 數(shù)據(jù) 方法 | ||
1.一種自動解析論壇網(wǎng)站數(shù)據(jù)的方法,其特征在于,所述方法包括以下步驟:
S1、生成論壇解析插件模板:收集論壇格式樣例,生成論壇解析插件模板并存儲在論壇解析插件模板中心庫中,具體過程為:
S11:通過人工從互聯(lián)網(wǎng)中收集大量論壇網(wǎng)站;
S12:對這些論壇網(wǎng)站的論壇格式進(jìn)行分析,將具有共性的論壇網(wǎng)站整理成一個統(tǒng)一論壇格式,生成統(tǒng)一的版塊頁正則匹配規(guī)則、主題頁正則匹配規(guī)則和回復(fù)頁正則匹配規(guī)則;
S13:將這些論壇格式形成相應(yīng)的論壇解析插件模板,每一種論壇格式都定義一個唯一標(biāo)識,所述唯一標(biāo)識都會生成一個對應(yīng)的通用的論壇解析插件模板,并記錄關(guān)聯(lián)關(guān)系,存儲于論壇解析插件模板中心庫中;
S2、篩選論壇解析插件模板:獲取待解析論壇網(wǎng)站的網(wǎng)頁源碼,根據(jù)網(wǎng)頁源碼從論壇解析插件模板中心庫中篩選出合適的論壇解析插件模板,具體過程為:
S21:獲取待解析論壇網(wǎng)站的網(wǎng)頁源碼,根據(jù)網(wǎng)站鏈接URL判斷該論壇網(wǎng)站是否已經(jīng)有指定的論壇解析插件模板;若有,則退出篩選,進(jìn)入S3;否則進(jìn)入S22;
S22:加載論壇解析插件模板中心庫中的所有論壇解析插件模板,存放在列表中,進(jìn)入S23;
S23:掃描列表,判斷是否已掃描到最后一個,若是,則進(jìn)入S28,否則進(jìn)入S24;
S24:根據(jù)論壇解析插件模板的版塊頁正則匹配規(guī)則對論壇網(wǎng)頁進(jìn)行版塊頁的提取,判斷提取的版塊頁鏈接URL個數(shù)是否大于0,若是,則進(jìn)入S25;否則返回S23,掃描下一個論壇解析插件模板;
S25:隨機(jī)選取S24提取的一個版塊頁鏈接URL,根據(jù)論壇插件解析模板的主題頁正則匹配規(guī)則對版塊頁進(jìn)行主題頁的提取,判斷該版塊頁提取的主題頁鏈接URL個數(shù)是否大于0,若是,則進(jìn)入S26;否則返回S23,掃描下一個論壇解析插件模板;
S26:隨機(jī)選取S25提取的一個主題頁鏈接URL,根據(jù)論壇插件解析模板的回復(fù)頁正則匹配規(guī)則對主題頁進(jìn)行回復(fù)頁的提取,判斷該主題頁提取的回復(fù)頁鏈接URL個數(shù)是否大于0,若是,則進(jìn)入S27;否則返回S23,掃描下一個論壇解析插件模板;
S27:指定該論壇插件解析模板為該論壇網(wǎng)站的論壇解析插件模板,并記錄關(guān)聯(lián)關(guān)系,以后該論壇網(wǎng)站都將默認(rèn)用該論壇解析插件模塊進(jìn)行解析;
S28:對該論壇網(wǎng)站進(jìn)行分析,形成一個新的論壇解析插件模板,并更新于論壇解析插件模板中心庫中;
S3、解析論壇網(wǎng)站數(shù)據(jù):根據(jù)篩選好的論壇解析插件模板的解析規(guī)則對論壇網(wǎng)站數(shù)據(jù)進(jìn)行解析并存儲。
2.如權(quán)利要求1所述的自動解析論壇網(wǎng)站數(shù)據(jù)的方法,其特征在于,論壇格式包括Discuz、phpwind、byr、dvbbs、LeadBBS、bbsxp、BbsMax和YxBBs。
3.如權(quán)利要求1所述的自動解析論壇網(wǎng)站數(shù)據(jù)的方法,其特征在于,S3的具體過程為:
S31:獲取論壇網(wǎng)頁,下載論壇網(wǎng)頁源碼,將所述論壇網(wǎng)頁源碼放入待采集隊列;
S32:從待采集隊列獲取起始采集網(wǎng)頁鏈接URL,根據(jù)指定的論壇解析插件模板中的版塊頁正則匹配規(guī)則,對起始采集網(wǎng)頁提取版塊頁鏈接URL,存放在第一隊列中;
S33:從第一隊列中逐個取出版塊頁鏈接URL,根據(jù)指定的論壇解析插件模板中的主題頁正則匹配規(guī)則,對版塊頁網(wǎng)頁提取主題頁鏈接URL,存放在第二隊列中;
S34:從第二隊列中逐個取出主題頁鏈接URL,根據(jù)指定的論壇解析插件模板中配置好的主題頁提取相關(guān)規(guī)則和回復(fù)頁正則匹配規(guī)則,對主題頁網(wǎng)頁提取出主題頁的標(biāo)題、作者、發(fā)布時間、最后回復(fù)人、最后回復(fù)時間及回復(fù)頁鏈接URL,存放在第三隊列中;
S35:從第三隊列中逐個取出回復(fù)頁鏈接URL,根據(jù)指定的論壇解析插件模板中配置好的回復(fù)頁提取相關(guān)規(guī)則,對回復(fù)頁網(wǎng)頁提取出回復(fù)人、回復(fù)內(nèi)容和回復(fù)時間,生成結(jié)構(gòu)化數(shù)據(jù),記錄主題頁和回復(fù)頁的結(jié)構(gòu)化數(shù)據(jù),并挖掘關(guān)聯(lián)關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門市美亞柏科信息股份有限公司,未經(jīng)廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911034106.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





