[發(fā)明專利]基于OWL語義分析的定向采集系統(tǒng)無效

申請?zhí)枺?/td>	201110285068.5	申請日：	2011-09-23
公開（公告）號：	CN102346772A	公開（公告）日：	2012-02-08
發(fā)明（設計）人：	王楠	申請（專利權）人：	王楠
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	南京縱橫知識產權代理有限公司 32224	代理人：	董建林
地址：	210006 江蘇省南京***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于 owl 語義分析定向采集系統(tǒng)
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發(fā)明屬于計算機技術領域，尤其涉及一種基于OWL語義分析的定向采集系統(tǒng)。

背景技術

定向采集系統(tǒng)是網(wǎng)絡蜘蛛的一種，它是網(wǎng)絡數(shù)據(jù)獲取系統(tǒng)的核心部分。它通過對互聯(lián)網(wǎng)上已知信息源（即網(wǎng)絡鏈接，URL:?Universal?Resource?Locator)的不斷抓取海量網(wǎng)頁內容，獲取其中所有主題相關內容。這就要求計算機能夠在全互聯(lián)網(wǎng)的范圍內識別、找到相應的網(wǎng)頁，并能夠“看懂”該網(wǎng)頁，把有關的內容提取出來。但是，目前業(yè)界絕大部分廠家主要采用傳統(tǒng)的關鍵詞匹配和網(wǎng)頁內容提取的數(shù)學算法，定向采集系統(tǒng)的智能化水平非常有限。

到目前為止，計算機只能通過HTML、XML協(xié)議讀懂網(wǎng)絡文本的格式，文本究竟代表什么意思，計算機并不知曉。對網(wǎng)絡內容最原始，但很有效的應用工具就是關鍵詞匹配。為了進一步分析網(wǎng)頁內容，科學家們發(fā)明了互聯(lián)網(wǎng)資源描述框架（Resources?Description?Framework，即：RDF）作為XML協(xié)議描述元數(shù)據(jù)的語言。RDF可以對網(wǎng)頁內容做一些概念化的抽象，因此為計算機識別一些特定的網(wǎng)絡內容提供了基礎。沿著同樣的思路發(fā)展到今天，網(wǎng)絡本體語言（Ontology?Web?Language，即：OWL）誕生了，而且成為世界互聯(lián)網(wǎng)組織W3C的標準。OWL是一個由簡單到復雜的概念描述工具，計算機可以根據(jù)OWL完成各種推理，因此，對于用OWL寫的網(wǎng)頁，計算機是“讀得懂”的，即：可以對該網(wǎng)頁的內容進行分析推理。

但是，使用OWL寫的網(wǎng)頁還很少，絕大部分海量信息都是HTML或XML格式的普通網(wǎng)頁；另外，使用OWL構造一個復雜概念體系的成本很高，可操作性很差，遠沒有達到普通人平常寫文章那樣方便的操作水平；就算有一些OWL網(wǎng)頁了，針對這些網(wǎng)頁的計算機推理程序還需要一個一個的開發(fā)，因而，使用OWL構造一個新的海量信息互聯(lián)網(wǎng)幾乎不可能。

不過，OWL畢竟為我們提供了一個世界標準的網(wǎng)絡本體描述工具，以此做成內容過濾“網(wǎng)”對普通HTML、XML或RDF文本進行分析，提取網(wǎng)頁內容還是可能的。如何利用OWL使得定向采集主題（關鍵詞組）有一個更概念化和延伸的描述，針對特定的信息源使用特定的OWL“過濾網(wǎng)”來實現(xiàn)去粗取精，去偽存真、由表及里、由此及彼的推理。這是傳統(tǒng)定向采集系統(tǒng)所不具備的。

發(fā)明內容

本發(fā)明為解決上述問題，提供一種更加智能的基于OWL語義分析的定向采集系統(tǒng)。

本發(fā)明的技術方案是提供一種基于OWL語義分析的定向采集系統(tǒng)，其包括采集配置客戶端、任務調度管理模塊、定向采集執(zhí)行端和采集數(shù)據(jù)管理模塊，所述采集配置客戶端根據(jù)用戶設定輸出采集主題和初始URL，并將所述初始URL保存在URL種子數(shù)據(jù)庫中，其特征在于：所述定向采集執(zhí)行端采集所述URL種子數(shù)據(jù)庫中所有URL對應的網(wǎng)頁，并將其輸出到所述任務調度管理模塊和采集數(shù)據(jù)管理模塊，所述任務調度管理模塊對該網(wǎng)頁進行OWL本體實例轉換后獲取其中所有的與所述采集主題相關的URL，并將其保存到所述URL種子數(shù)據(jù)庫中。

優(yōu)選的，所述任務調度管理模塊對網(wǎng)頁進行OWL本體實例轉換的工作流程為：

1）將所述定向采集執(zhí)行端采集到的網(wǎng)頁轉換成HTML格式或XML格式的格式文本；

2）對上一步驟中提取的格式文本進行過濾處理，提取其中的正文；

3）對上一步驟中提取的正文進行分詞、排歧、去重和語法標注處理；

4）根據(jù)預先設計好的OWL轉換規(guī)則將上一步驟中處理后的正文轉換成OWL本體實例。

優(yōu)選的，其還包括OWL本體策略配置模塊，所述OWL本體策略配置模塊負責維護所述OWL轉換規(guī)則。

優(yōu)選的，其還包括OWL內容提取模塊，所述OWL內容提取模塊對所述定向采集執(zhí)行端采集的網(wǎng)頁進行OWL本體實例轉換后提取其中所有的與所述采集主題相關的內容，并將其保存到采集結果數(shù)據(jù)庫中。

優(yōu)選的，所述OWL內容提取模塊的工作流程為：

1）OWL本體轉換：將所述網(wǎng)頁轉換成OWL本體實例；

2）OWL語義分析：分析步驟1）得到的OWL本體實例，提取其中與所述采集主題相關的內容；

3）文件重壓縮：將步驟2）中提取的內容進行壓縮處理并保存到所述采集結果數(shù)據(jù)庫中；

4）網(wǎng)頁導出：將步驟2）中提取的內容以網(wǎng)頁的形式輸出。