[發明專利]信息采集方法及系統無效
| 申請號: | 200810126496.1 | 申請日: | 2008-07-04 |
| 公開(公告)號: | CN101620608A | 公開(公告)日: | 2010-01-06 |
| 發明(設計)人: | 藍培瑜 | 申請(專利權)人: | 全國組織機構代碼管理中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 | 代理人: | 李 玲 |
| 地址: | 100029北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 采集 方法 系統 | ||
技術領域
本發明涉及互聯網信息處理技術,尤其涉及一種Internet信息定向采集處理的方法及系統。
背景技術
隨著Internet的發展和日益普及,經濟全球化與科技創新的競爭日益劇烈,很多技術的前沿信息都率先在Internet上公布,全球經濟的發展呈現出對Internet中知識的擴散和應用的依賴,這使得Internet信息的數量呈幾何級增長,在這個巨大的、異構的信息海洋中,蘊含著具有巨大潛在價值的信息和知識,采集和利用這些信息和知識已經成為國家、企業、個人的迫切需求。
此外,這些Internet信息90%以上為非結構化的信息,如各類電子文檔、網頁、多媒體內容等,僅有不到10%的信息內容為數字等結構化信息,在管理與利用這些非結構化的信息資源時現有的信息管理方式管理起來比較困難。
為了利用海量的非結構化信息占絕大多數的Internet信息,現有的以搜索引擎為主要產品的快速搜索技術為人們提供了一種查找信息的渠道,而這種快速搜索是建立在Internet信息采集的基礎上。
現有的Internet信息采集系統主要是利用網頁中存在的鏈接地址直接獲取到頁面內容或者二進制文件,在現有的信息采集系統中,由于當前各種先進技術的運用,許多網站的格局千變萬化,對于動態生成的網頁和利用腳本生成的網頁,難以進行采集。另外,由于URL鏈接地址數量巨大,為了避免浪費系統資源,需要對地址進行去重操作,現有的去重操作均是對地址直接進行去重,由于這些地址會占去很大的存儲空間,因此去重效率比較低下。
發明內容
本發明的目的是提出一種信息采集方法及系統,能夠對各種網頁格式的網頁進行內容的提取,來實現網頁信息的采集。
為實現上述目的,本發明提供了一種信息采集方法,包括以下步驟:
根據預設的采集任務模板從互聯網上獲取符合采集要求的一個或多個網頁鏈接地址;
對所述一個或多個網頁鏈接地址執行去重操作,并將去重后得到的結果存入地址列表數據文件;
修補所述地址列表數據文件所對應的內容信息的超文本標記語言標簽,并對修補后的網頁內容進行文本信息提取;
對提取的文本信息進行自動分類,然后對分類后的文本信息進行分詞處理,并提取所述文本信息的摘要;
將所述文本信息的分類結果、分詞操作得到的詞條以及摘要輸出。
進一步的,還包括預先設置采集任務模板的操作,具體為:在超文本標記語言頁面標簽樹結構的各個節點中保存用戶輸入的采集任務的要求。
進一步的,所述對所述一個或多個網頁鏈接地址執行去重操作,并將去重后得到結果存入地址列表數據文件的操作具體為:將所述一個或多個網頁鏈接地址進行哈希變換,生成與所述一個或多個網頁鏈接地址對應的標識碼列表,對所述標識碼列表進行去重操作,將去重后的標識碼列表存入地址列表數據文件。
進一步的,修補超文本標記語言標簽的操作具體為:根據預先構造的超文本標記語言解析器,對所述地址列表數據文件所對應的內容信息的超文本標記語言標簽進行修補。
進一步的,對修補后的網頁內容進行文本信息提取的操作具體為:對修補后的網頁內容中的文本格式數據和/或能夠提取出文本信息的二進制格式數據進行文本信息提取。
進一步的,從二進制格式數據中提取文本信息的操作具體為:根據所述二進制格式數據的文件格式選擇對應的提取插件對文本信息進行提取。
進一步的,當對修補后的網頁內容進行文本信息提取的操作失敗時,重新對超文本標記語言解析器進行構造,并根據重新構造的超文本標記語言解析器對網頁內容進行修補。
進一步的,對提取的文本信息進行自動分類的操作具體為:通過百分比閾值確定法確定分類閾值,并根據所述分類閾值對提取的文本信息進行自動分類。
進一步的,在對分類后的文本信息進行分詞處理之前,還包括語種識別的操作,并根據識別出的語種選擇分詞方式。
進一步的,所述分詞處理的操作具體為:
根據預設的分詞詞典對所述分類后的文本信息進行正向最大匹配分詞及逆向最大匹配分詞;
判斷所述正向最大匹配分詞及逆向最大匹配分詞得到的詞條是否匹配,如果匹配,則確定正向最大匹配分詞或逆向最大匹配分詞得到的詞條為分詞結果,否則確定正向最大匹配分詞和逆向最大匹配分詞得到的權重較大的詞條為分詞結果。
進一步的,所述提取文本信息的摘要的操作具體為:
提取分詞處理后得到的詞條的類別特征,并計算該詞條的權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于全國組織機構代碼管理中心,未經全國組織機構代碼管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810126496.1/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





