[發明專利]一種基于標準文獻的智能抓取規則配置技術實現方法有效
| 申請號: | 201711048560.4 | 申請日: | 2017-10-31 |
| 公開(公告)號: | CN110020050B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 袁慶祝;王文鋒;孫良君;林雪;陳斌;陳嘉璐;姚小敏;王偉 | 申請(專利權)人: | 中博信息技術研究院有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 張文杰 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標準 文獻 智能 抓取 規則 配置 技術 實現 方法 | ||
本發明公開了一種基于標準文獻的智能抓取規則配置技術實現方法,屬于標準文獻網絡自動采集技術領域,通過預先配置好不同類型的站點抓取模板,根據標準文獻在各個階段的所展現的文本信息,自動抓取互聯網上標準文獻的信息保存至本地庫,自動更新標準題錄信息,開發符合標準特性的網頁抓取工具,根據國內常用標準公告站點定制化配置,實現標準文獻資料的自動實時采集。本發明改變原先由人工方式每天從各個站點跟蹤標準文獻信息,并手動進行標準信息抓取,大大減少了員工工作量和提高數據準確性,提高了本地標準庫文獻資料的實時性、全面性。
技術領域
本發明涉及一種基于標準文獻特征值的網頁智能抓取方法,特別是涉及一種基于標準文獻的智能抓取規則配置技術實現方法,屬于標準文獻網絡自動采集技術領域。
背景技術
網頁自動抓取,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,它們被廣泛用于互聯網搜索引擎或其他類似網站,可以自動采集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式。從功能上來講,抓取一般分為數據采集、處理和儲存三個部分。傳統抓取從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦抓取的工作流程較為復雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到系統的某一條件時停止。另外,所有被抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦抓取來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。
網頁自動抓取技術是當今互聯網中常用的技術,目前互聯網上的網頁抓取軟件主要集中用于對大型網站的新聞和文章內容抓取,基于新聞、文章發布內容的通用格式,能夠涵蓋大部分網站的抓取,滿足后端工作者的需求。標準文獻文本信息有區別于普通的新聞信息,網頁抓取需要定制標準特性化的內容,如標準號、標準名、狀態、發布日期、實施日期等要素的抓取,而各個標準文獻網站的板式不一致,需要跟蹤抓取的標準文獻資料內容也不一致,不滿足通用性,無法利用傳統的網頁抓取軟件實現標準文獻的抓取。
發明內容
本發明的主要目的是為了提供一種基于標準文獻的智能抓取規則配置技術實現方法,用于解決人工跟蹤查詢標準文獻資料存在的效率低、及時性差、準確率低的問題。
本發明的目的可以通過采用如下技術方案達到:
一種基于標準文獻的智能抓取規則配置技術實現方法,包括如下步驟:
步驟1:建立站點采集配置模塊、采集信息編輯模塊、站點采集預警模塊,安裝和配置網頁抓取軟件服務器;
步驟2:站點采集配置模塊配置各個分類下站點的采集規則,根據標準文獻將站點采集配置模塊分為三類標準文獻采集配置模塊的抓取;
步驟3:網頁抓取軟件啟動后,從數據庫獲取需要抓取的站點,并將其配置寫入內存,啟動后首次抓取所有站點的標準文獻信息,后面根據采集頻次抓取相應站點的標準文獻信息;
步驟4:公告管理人員通過采集信息編輯模塊,對網頁抓取軟件采集的標準文獻內容進行核對,如果確認無誤則提交,采集信息編輯模塊通過提交的采集標準文獻信息分類,自行判定是新增標準文獻信息或者更新已有標準文獻的內容;
步驟5:公告管理人員通過站點采集預警模塊監控網頁抓取軟件的采集異常,站點在其配置的預警閾值內無抓取到信息,將展示給公告管理人員,公告管理人員根據站點重新配置采集規則。
進一步的,所述站點采集配置模塊用于對采集站點的管理,以及各站點詳細采集規則的配置;
所述采集信息編輯模塊用于對自動采集的標準文獻信息再加工;站點采集預警模塊用于對長期未采集到信息站點的警報;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中博信息技術研究院有限公司,未經中博信息技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711048560.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:域名翻譯和查詢的方法和裝置
- 下一篇:一種基于數據庫同步的輿情分析系統





