[發明專利]基于OWL語義分析的定向采集系統無效
| 申請號: | 201110285068.5 | 申請日: | 2011-09-23 |
| 公開(公告)號: | CN102346772A | 公開(公告)日: | 2012-02-08 |
| 發明(設計)人: | 王楠 | 申請(專利權)人: | 王楠 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210006 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 owl 語義 分析 定向 采集 系統 | ||
1.基于OWL語義分析的定向采集系統,其包括采集配置客戶端、任務調度管理模塊、定向采集執行端和采集數據管理模塊,所述采集配置客戶端根據用戶設定輸出采集主題和初始URL,并將所述初始URL保存在URL種子數據庫中,其特征在于:所述定向采集執行端采集所述URL種子數據庫中所有URL對應的網頁,并將其輸出到所述任務調度管理模塊和采集數據管理模塊,所述任務調度管理模塊對該網頁進行OWL本體實例轉換后獲取其中所有的與所述采集主題相關的URL,并將其保存到所述URL種子數據庫中。
2.根據權利要求1所述的基于OWL語義分析的定向采集系統,其特征在于:所述任務調度管理模塊對網頁進行OWL本體實例轉換的工作流程為:
1)將所述定向采集執行端采集到的網頁轉換成HTML格式或XML格式的格式文本;
2)對上一步驟中提取的格式文本進行過濾處理,提取其中的正文;
3)對上一步驟中提取的正文進行分詞、排歧、去重和語法標注處理;
4)根據預先設計好的OWL轉換規則將上一步驟中處理后的正文轉換成OWL本體實例。
3.根據權利要求2所述的基于OWL語義分析的定向采集系統,其特征在于:其還包括OWL本體策略配置模塊,所述OWL本體策略配置模塊負責維護所述OWL轉換規則。
4.根據權利要求1所述的基于OWL語義分析的定向采集系統,其特征在于:其還包括OWL內容提取模塊,所述OWL內容提取模塊對所述定向采集執行端采集的網頁進行OWL本體實例轉換后提取其中所有的與所述采集主題相關的內容,并將其保存到采集結果數據庫中。
5.根據權利要求4所述的基于OWL語義分析的定向采集系統,其特征在于:所述OWL內容提取模塊的工作流程為:
1)OWL本體轉換:將所述網頁轉換成OWL本體實例;
2)OWL語義分析:分析步驟1)得到的OWL本體實例,提取其中與所述采集主題相關的內容;
3)文件重壓縮:將步驟2)中提取的內容進行壓縮處理并保存到所述采集結果數據庫中;
4)網頁導出:將步驟2)中提取的內容以網頁的形式輸出。
6.根據權利要求1所述的基于OWL語義分析的定向采集系統,其特征在于:所述定向采集執行端包括網頁定向采集器,所述網頁定向采集器根據輸入的URL采集互聯網網頁。
7.根據權利要求1所述的基于OWL語義分析的定向采集系統,其特征在于:所述采集數據管理模塊包括原始網頁數據庫,所述采集數據管理模塊將所述定向采集執行端采集的網頁保存到所述原始網頁數據庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于王楠,未經王楠許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110285068.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種熱處理工藝曲線的繪制方法
- 下一篇:一種帶有風扇功能的筆記本電腦適配器





