[發明專利]一種基于標準文獻的智能抓取規則配置技術實現方法有效
| 申請號: | 201711048560.4 | 申請日: | 2017-10-31 |
| 公開(公告)號: | CN110020050B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 袁慶祝;王文鋒;孫良君;林雪;陳斌;陳嘉璐;姚小敏;王偉 | 申請(專利權)人: | 中博信息技術研究院有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 張文杰 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標準 文獻 智能 抓取 規則 配置 技術 實現 方法 | ||
1.一種基于標準文獻的智能抓取規則配置技術實現方法,其特征在于,包括如下步驟:
步驟1:建立站點采集配置模塊、采集信息編輯模塊、站點采集預警模塊,安裝和配置網頁抓取軟件服務器;
步驟2:站點采集配置模塊配置各個分類下站點的抓取規則,根據標準文獻將站點采集配置模塊分為三類標準文獻采集配置模塊;
步驟3:網頁抓取軟件啟動后,從數據庫獲取需要抓取的站點,并將其配置寫入內存,啟動后首次抓取所有站點的標準文獻信息,后面根據采集頻次抓取相應站點的標準文獻信息;
步驟4:公告管理人員通過采集信息編輯模塊,對網頁抓取軟件采集的標準文獻內容進行核對,如果確認無誤則提交,采集信息編輯模塊通過提交的采集標準文獻信息分類,自行判定是新增標準文獻信息或者更新已有標準文獻的內容;
步驟5:公告管理人員通過站點采集預警模塊監控網頁抓取軟件的采集異常,若站點在其配置的預警閾值內無抓取到信息,將展示給公告管理人員,公告管理人員根據站點重新配置抓取規則;
所述步驟2中,所述站點采集配置模塊進行站點抓取規則配置,包括如下步驟:
步驟21:在站點采集配置模塊添加抓取站點鏈接和編碼格式,站點采集配置模塊服務器端發送請求至網頁抓取軟件服務器端,網頁抓取軟件根據請求鏈接和編碼格式發送HTTP請求獲取該站點源碼并返還站點采集配置模塊服務器端;
步驟22:站點采集配置模塊將獲取的站點源碼加載到網頁中,配置正文采集區域,選定正文的開始位置和結束位置,提交后僅保留抓取的正文部分源碼;
步驟23:從正文部分配置標準文獻內容的抓取規則,假定需要抓取標準公告標題,則需填寫抓取內容的開始關鍵詞和結束關鍵詞,填寫后測試抓取到的內容,抓取到的文本在源碼中會高亮顯示;
步驟24:配置站點的抓取頻次,抓取頻次以小時為單位,網頁抓取軟件自啟動時的時間作為起始時間,加入定時器,以小時為單位,首次啟動服務抓取所有分類下的站點,后面以小時為間隔單位,將在采集頻次內的站點加入到采集對象中,采集完成后自動釋放該對象;
步驟25:配置站點的預警閾值,預警閾值以天為單位,每個站點在抓取完成后都將更新最后一次成功抓取的時間,當某個站點在當前時間截止到最后一次成功抓取時間超出了該站點的預警閾值時,系統自動預警該站點。
2.根據權利要求1所述的一種基于標準文獻的智能抓取規則配置技術實現方法,其特征在于,所述站點采集配置模塊用于對采集站點的管理,以及各站點詳細抓取規則的配置;
所述采集信息編輯模塊用于對自動采集的標準文獻信息再加工;站點采集預警模塊用于對長期未采集到信息的站點的警報;
所述網頁抓取軟件用于接收站點采集配置信息,自動采集標準文獻信息。
3.根據權利要求1所述的一種基于標準文獻的智能抓取規則配置技術實現方法,其特征在于,所述站點采集配置模塊、所述采集信息編輯模塊、所述站點采集預警模塊和所述網頁抓取軟件均采用服務器完成。
4.根據權利要求1所述的一種基于標準文獻的智能抓取規則配置技術實現方法,其特征在于,所述站點采集配置模塊、所述采集信息編輯模塊、所述站點采集預警模塊和所述網頁抓取軟件均采用互聯網通信。
5.根據權利要求1所述的一種基于標準文獻的智能抓取規則配置技術實現方法,其特征在于,所述三類標準文獻配置模塊包括:制修訂計劃采集配置模塊、征求意見稿采集配置模塊和標準公告采集配置模塊。
6.根據權利要求5所述的一種基于標準文獻的智能抓取規則配置技術實現方法,其特征在于,所述制修訂計劃采集配置模塊跟蹤立項階段標準文獻的抓取;
所述征求意見稿采集配置模塊跟蹤征求意見階段標準文獻的抓取;
所述標準公告采集配置模塊跟蹤出版階段、復審階段、廢止階段標準文獻的抓取;
各個分類下站點根據不同模板配置抓取規則。
7.根據權利要求1所述的一種基于標準文獻的智能抓取規則配置技術實現方法,其特征在于,所述步驟3中,所述網頁抓取軟件通過配置將不同階段的標準文獻采集并插入到不同的數據庫中,網頁抓取軟件對抓取的數據自動去重,不同階段的標準文獻采集包括立項階段、征求意見階段、出版階段、復審階段、廢止階段的標準文獻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中博信息技術研究院有限公司,未經中博信息技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711048560.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:域名翻譯和查詢的方法和裝置
- 下一篇:一種基于數據庫同步的輿情分析系統





