[發明專利]信息采集方法及系統無效
| 申請號: | 200810126496.1 | 申請日: | 2008-07-04 |
| 公開(公告)號: | CN101620608A | 公開(公告)日: | 2010-01-06 |
| 發明(設計)人: | 藍培瑜 | 申請(專利權)人: | 全國組織機構代碼管理中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 | 代理人: | 李 玲 |
| 地址: | 100029北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 采集 方法 系統 | ||
1、一種信息采集方法,包括以下步驟:
根據預設的采集任務模板從互聯網上獲取符合采集要求的一個或多個網頁鏈接地址;
對所述一個或多個網頁鏈接地址執行去重操作,并將去重后得到的結果存入地址列表數據文件;
修補所述地址列表數據文件所對應的內容信息的超文本標記語言標簽,并對修補后的網頁內容進行文本信息提取;
對提取的文本信息進行自動分類,然后對分類后的文本信息進行分詞處理,并提取所述文本信息的摘要;
將所述文本信息的分類結果、分詞操作得到的詞條以及摘要輸出。
2、根據權利要求1所述的信息采集方法,其中還包括預先設置采集任務模板的操作,具體為:
在超文本標記語言頁面標簽樹結構的各個節點中保存用戶輸入的采集任務的要求。
3、根據權利要求1所述的信息采集方法,其中所述對所述一個或多個網頁鏈接地址執行去重操作,并將去重后得到結果存入地址列表數據文件的操作具體為:
將所述一個或多個網頁鏈接地址進行哈希變換,生成與所述一個或多個網頁鏈接地址對應的標識碼列表,對所述標識碼列表進行去重操作,將去重后的標識碼列表存入地址列表數據文件。
4、根據權利要求1所述的信息采集方法,其中修補超文本標記語言標簽的操作具體為:
根據預先構造的超文本標記語言解析器,對所述地址列表數據文件所對應的內容信息的超文本標記語言標簽進行修補。
5、根據權利要求4所述的信息采集方法,其中對修補后的網頁內容進行文本信息提取的操作具體為:
對修補后的網頁內容中的文本格式數據和/或能夠提取出文本信息的二進制格式數據進行文本信息提取。
6、根據權利要求5所述的信息采集方法,其中從二進制格式數據中提取文本信息的操作具體為:
根據所述二進制格式數據的文件格式選擇對應的提取插件對文本信息進行提取。
7、根據權利要求4所述的信息采集方法,其中當對修補后的網頁內容進行文本信息提取的操作失敗時,重新對超文本標記語言解析器進行構造,并根據重新構造的超文本標記語言解析器對網頁內容進行修補。
8、根據權利要求1所述的信息采集方法,其中對提取的文本信息進行自動分類的操作具體為:
通過百分比閾值確定法確定分類閾值,并根據所述分類閾值對提取的文本信息進行自動分類。
9、根據權利要求1所述的信息采集方法,其中在對分類后的文本信息進行分詞處理之前,還包括語種識別的操作,并根據識別出的語種選擇分詞方式。
10、根據權利要求9所述的信息采集方法,其中所述分詞處理的操作具體為:
根據預設的分詞詞典對所述分類后的文本信息進行正向最大匹配分詞及逆向最大匹配分詞;
判斷所述正向最大匹配分詞及逆向最大匹配分詞得到的詞條是否匹配,如果匹配,則確定正向最大匹配分詞或逆向最大匹配分詞得到的詞條為分詞結果,否則確定正向最大匹配分詞和逆向最大匹配分詞得到的權重較大的詞條為分詞結果。
11、根據權利要求1所述的信息采集方法,其中所述提取文本信息的摘要的操作具體為:
提取分詞處理后得到的詞條的類別特征,并計算該詞條的權重;
根據所述詞條的權重計算文本信息中各個句子的權重,并依據所述各個句子中的權重進行排序;
取出權重較大的排序前預設位數的句子作為文摘句,以原文順序輸出文摘句的集合;
對所述文摘句的集合進行平滑方法和縮句處理,得到所述文本信息的摘要。
12、一種信息采集系統,包括:
地址獲取模塊,用于根據預設的采集任務模板從互聯網上獲取符合采集要求的一個或多個網頁鏈接地址;
地址去重模塊,用于對所述一個或多個網頁鏈接地址執行去重操作,并將去重后得到的結果存入地址列表數據文件;
標簽修補模塊,用于修補所述地址列表數據文件所對應的內容信息的超文本標記語言標簽;
文本信息提取模塊,用于對修補后的網頁內容進行文本信息提取;
自動分類模塊,用于對提取的文本信息進行自動分類;
分詞處理模塊,用于對分類后的文本信息進行分詞處理;
摘要提取模塊,用于提取所述文本信息的摘要;
結果輸出模塊,用于將所述文本信息的分類結果、分詞操作得到的詞條以及摘要輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于全國組織機構代碼管理中心,未經全國組織機構代碼管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810126496.1/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





