[發明專利]信息采集方法及系統無效

申請號：	200810126496.1	申請日：	2008-07-04
公開（公告）號：	CN101620608A	公開（公告）日：	2010-01-06
發明（設計）人：	藍培瑜	申請（專利權）人：	全國組織機構代碼管理中心
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	中國國際貿易促進委員會專利商標事務所	代理人：	李玲
地址：	100029北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	信息采集方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及互聯網信息處理技術，尤其涉及一種Internet信息定向采集處理的方法及系統。

背景技術

隨著Internet的發展和日益普及，經濟全球化與科技創新的競爭日益劇烈，很多技術的前沿信息都率先在Internet上公布，全球經濟的發展呈現出對Internet中知識的擴散和應用的依賴，這使得Internet信息的數量呈幾何級增長，在這個巨大的、異構的信息海洋中，蘊含著具有巨大潛在價值的信息和知識，采集和利用這些信息和知識已經成為國家、企業、個人的迫切需求。

此外，這些Internet信息90％以上為非結構化的信息，如各類電子文檔、網頁、多媒體內容等，僅有不到10％的信息內容為數字等結構化信息，在管理與利用這些非結構化的信息資源時現有的信息管理方式管理起來比較困難。

為了利用海量的非結構化信息占絕大多數的Internet信息，現有的以搜索引擎為主要產品的快速搜索技術為人們提供了一種查找信息的渠道，而這種快速搜索是建立在Internet信息采集的基礎上。

現有的Internet信息采集系統主要是利用網頁中存在的鏈接地址直接獲取到頁面內容或者二進制文件，在現有的信息采集系統中，由于當前各種先進技術的運用，許多網站的格局千變萬化，對于動態生成的網頁和利用腳本生成的網頁，難以進行采集。另外，由于URL鏈接地址數量巨大，為了避免浪費系統資源，需要對地址進行去重操作，現有的去重操作均是對地址直接進行去重，由于這些地址會占去很大的存儲空間，因此去重效率比較低下。

發明內容

本發明的目的是提出一種信息采集方法及系統，能夠對各種網頁格式的網頁進行內容的提取，來實現網頁信息的采集。

為實現上述目的，本發明提供了一種信息采集方法，包括以下步驟：

根據預設的采集任務模板從互聯網上獲取符合采集要求的一個或多個網頁鏈接地址；

對所述一個或多個網頁鏈接地址執行去重操作，并將去重后得到的結果存入地址列表數據文件；

修補所述地址列表數據文件所對應的內容信息的超文本標記語言標簽，并對修補后的網頁內容進行文本信息提取；

對提取的文本信息進行自動分類，然后對分類后的文本信息進行分詞處理，并提取所述文本信息的摘要；

將所述文本信息的分類結果、分詞操作得到的詞條以及摘要輸出。

進一步的，還包括預先設置采集任務模板的操作，具體為：在超文本標記語言頁面標簽樹結構的各個節點中保存用戶輸入的采集任務的要求。

進一步的，所述對所述一個或多個網頁鏈接地址執行去重操作，并將去重后得到結果存入地址列表數據文件的操作具體為：將所述一個或多個網頁鏈接地址進行哈希變換，生成與所述一個或多個網頁鏈接地址對應的標識碼列表，對所述標識碼列表進行去重操作，將去重后的標識碼列表存入地址列表數據文件。

進一步的，修補超文本標記語言標簽的操作具體為：根據預先構造的超文本標記語言解析器，對所述地址列表數據文件所對應的內容信息的超文本標記語言標簽進行修補。

進一步的，對修補后的網頁內容進行文本信息提取的操作具體為：對修補后的網頁內容中的文本格式數據和/或能夠提取出文本信息的二進制格式數據進行文本信息提取。