[發(fā)明專利]基于OWL語義分析的定向采集系統(tǒng)無效
| 申請?zhí)枺?/td> | 201110285068.5 | 申請日: | 2011-09-23 |
| 公開(公告)號: | CN102346772A | 公開(公告)日: | 2012-02-08 |
| 發(fā)明(設計)人: | 王楠 | 申請(專利權)人: | 王楠 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210006 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 owl 語義 分析 定向 采集 系統(tǒng) | ||
技術領域
本發(fā)明屬于計算機技術領域,尤其涉及一種基于OWL語義分析的定向采集系統(tǒng)。
背景技術
定向采集系統(tǒng)是網(wǎng)絡蜘蛛的一種,它是網(wǎng)絡數(shù)據(jù)獲取系統(tǒng)的核心部分。它通過對互聯(lián)網(wǎng)上已知信息源(即網(wǎng)絡鏈接,URL:?Universal?Resource?Locator)的不斷抓取海量網(wǎng)頁內容,獲取其中所有主題相關內容。這就要求計算機能夠在全互聯(lián)網(wǎng)的范圍內識別、找到相應的網(wǎng)頁,并能夠“看懂”該網(wǎng)頁,把有關的內容提取出來。但是,目前業(yè)界絕大部分廠家主要采用傳統(tǒng)的關鍵詞匹配和網(wǎng)頁內容提取的數(shù)學算法,定向采集系統(tǒng)的智能化水平非常有限。
到目前為止,計算機只能通過HTML、XML協(xié)議讀懂網(wǎng)絡文本的格式,文本究竟代表什么意思,計算機并不知曉。對網(wǎng)絡內容最原始,但很有效的應用工具就是關鍵詞匹配。為了進一步分析網(wǎng)頁內容,科學家們發(fā)明了互聯(lián)網(wǎng)資源描述框架(Resources?Description?Framework,即:RDF)作為XML協(xié)議描述元數(shù)據(jù)的語言。RDF可以對網(wǎng)頁內容做一些概念化的抽象,因此為計算機識別一些特定的網(wǎng)絡內容提供了基礎。沿著同樣的思路發(fā)展到今天,網(wǎng)絡本體語言(Ontology?Web?Language,即:OWL)誕生了,而且成為世界互聯(lián)網(wǎng)組織W3C的標準。OWL是一個由簡單到復雜的概念描述工具,計算機可以根據(jù)OWL完成各種推理,因此,對于用OWL寫的網(wǎng)頁,計算機是“讀得懂”的,即:可以對該網(wǎng)頁的內容進行分析推理。
但是,使用OWL寫的網(wǎng)頁還很少,絕大部分海量信息都是HTML或XML格式的普通網(wǎng)頁;另外,使用OWL構造一個復雜概念體系的成本很高,可操作性很差,遠沒有達到普通人平常寫文章那樣方便的操作水平;就算有一些OWL網(wǎng)頁了,針對這些網(wǎng)頁的計算機推理程序還需要一個一個的開發(fā),因而,使用OWL構造一個新的海量信息互聯(lián)網(wǎng)幾乎不可能。
不過,OWL畢竟為我們提供了一個世界標準的網(wǎng)絡本體描述工具,以此做成內容過濾“網(wǎng)”對普通HTML、XML或RDF文本進行分析,提取網(wǎng)頁內容還是可能的。如何利用OWL使得定向采集主題(關鍵詞組)有一個更概念化和延伸的描述,針對特定的信息源使用特定的OWL“過濾網(wǎng)”來實現(xiàn)去粗取精,去偽存真、由表及里、由此及彼的推理。這是傳統(tǒng)定向采集系統(tǒng)所不具備的。
?
發(fā)明內容
本發(fā)明為解決上述問題,提供一種更加智能的基于OWL語義分析的定向采集系統(tǒng)。
本發(fā)明的技術方案是提供一種基于OWL語義分析的定向采集系統(tǒng),其包括采集配置客戶端、任務調度管理模塊、定向采集執(zhí)行端和采集數(shù)據(jù)管理模塊,所述采集配置客戶端根據(jù)用戶設定輸出采集主題和初始URL,并將所述初始URL保存在URL種子數(shù)據(jù)庫中,其特征在于:所述定向采集執(zhí)行端采集所述URL種子數(shù)據(jù)庫中所有URL對應的網(wǎng)頁,并將其輸出到所述任務調度管理模塊和采集數(shù)據(jù)管理模塊,所述任務調度管理模塊對該網(wǎng)頁進行OWL本體實例轉換后獲取其中所有的與所述采集主題相關的URL,并將其保存到所述URL種子數(shù)據(jù)庫中。
優(yōu)選的,所述任務調度管理模塊對網(wǎng)頁進行OWL本體實例轉換的工作流程為:
1)將所述定向采集執(zhí)行端采集到的網(wǎng)頁轉換成HTML格式或XML格式的格式文本;
2)對上一步驟中提取的格式文本進行過濾處理,提取其中的正文;
3)對上一步驟中提取的正文進行分詞、排歧、去重和語法標注處理;
4)根據(jù)預先設計好的OWL轉換規(guī)則將上一步驟中處理后的正文轉換成OWL本體實例。
優(yōu)選的,其還包括OWL本體策略配置模塊,所述OWL本體策略配置模塊負責維護所述OWL轉換規(guī)則。
優(yōu)選的,其還包括OWL內容提取模塊,所述OWL內容提取模塊對所述定向采集執(zhí)行端采集的網(wǎng)頁進行OWL本體實例轉換后提取其中所有的與所述采集主題相關的內容,并將其保存到采集結果數(shù)據(jù)庫中。
優(yōu)選的,所述OWL內容提取模塊的工作流程為:
1)OWL本體轉換:將所述網(wǎng)頁轉換成OWL本體實例;
2)OWL語義分析:分析步驟1)得到的OWL本體實例,提取其中與所述采集主題相關的內容;
3)文件重壓縮:將步驟2)中提取的內容進行壓縮處理并保存到所述采集結果數(shù)據(jù)庫中;
4)網(wǎng)頁導出:將步驟2)中提取的內容以網(wǎng)頁的形式輸出。
優(yōu)選的,所述定向采集執(zhí)行端包括網(wǎng)頁定向采集器,所述網(wǎng)頁定向采集器根據(jù)輸入的URL采集互聯(lián)網(wǎng)網(wǎng)頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于王楠,未經(jīng)王楠許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110285068.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種熱處理工藝曲線的繪制方法
- 下一篇:一種帶有風扇功能的筆記本電腦適配器





