[發明專利]異構信息知識挖掘與可視化分析系統及方法無效
| 申請號: | 201210025598.0 | 申請日: | 2012-02-07 |
| 公開(公告)號: | CN102609512A | 公開(公告)日: | 2012-07-25 |
| 發明(設計)人: | 李春梅;李艾丹;薛中玉;郭秋梅;楊思維;張志朋;桑道靜 | 申請(專利權)人: | 北京中機科海科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100048 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 知識 挖掘 可視化 分析 系統 方法 | ||
技術領域
本發明涉及異構信息檢索領域,特別涉及一種基于領域本體(Domain?ontology)和知識挖掘的智能檢索與分析方法,以及包含該方法的可視化分析系統。
背景技術
信息檢索技術作為獲取信息的方法和手段,其出現是網絡發展史上的里程碑,它為網絡用戶帶來了極大的便利,提高了各類信息的利用率。Google、百度是這個領域的典型代表。用戶只要輸入檢索詞或檢索語句,信息檢索系統就會按照一定的排序規則、為用戶快速地返回包含該檢索詞或檢索語句的所有網頁。
然而,現有的通用搜索引擎無法準確地理解和處理各類專業領域知識,經常檢索不到、甚至返回大量無關信息。主要原因在于:一方面,采取關鍵字匹配方式理解用戶檢索語句。信息檢索系統并不關注用戶輸入的專業領域詞匯的概念和語義,只是將分詞后的關鍵詞與索引庫中的索引詞按照字面形式進行直接匹配。另一方面,按照檢索相關度對結果進行排序處理,即按照檢索詞和索引詞之間相同的字或詞的多少進行排序。
為了提高信息檢索效率,一些信息檢索系統提出了“相關搜索”等改進技術,然而,這些技術仍沒有脫離字面匹配的本質。在人工智能(AI)等領域,領域本體、知識挖掘的引入為相關問題的解決帶來了契機。
“本體”(Ontology)最初是哲學領域的術語,是關于事物存在及其本質規律的學說。20世紀末,隨著信息技術的發展,本體被引入人工智能、知識工程、圖書情報等領域,用于構建大型集成的知識庫系統,解決知識概念表示和知識組織體系方面的問題。在新的技術領域,本體被賦予更為具體的定義——共享概念模型的、明確的、形式化的規范說明。本體一般由概念(Concepts)、概念間關系(Relations)和規則(Rules)構成。
(1)本體的目標是捕獲相關領域的知識,確定該領域共同認可的詞匯,并明確定義這些詞匯及詞匯間的相互關系,提供對該領域知識的共同理解,并以規范化的形式在計算機中加以存儲。
(2)規定了論域。領域本體以一個特定的領域為描述對象,提供該特定領域的概念定義和概念之間的關系、主要理論、基本原理,以及領域中發生的活動等。
(3)知識表示、共享和重用。共享知識體系的表示是“機器可處理”的語義,它以RDF為基礎,以URI作為命名機制、以XML為語法,將不同的應用集成在一起,對Web上的數據進行抽象表示。本體通過這種通用框架的表示方式,允許跨越不同應用程序、企業和團體的邊界進行數據的共享和重用。
(4)信息交流的語義基礎。由本體所提供的領域內共同認可的知識體系包括術語集、關系集和規則集,會為不同主體提供一種共識,為不同背景和領域下的人、機器、軟件系統等進行信息交流提供了可能。
正是由于以上的特點和優勢,所以本體為語義理解、智能檢索等提供了可能。本體在人工智能、知識工程、圖書情報、搜索引擎、信息系統以及計算機輔助設計等眾多領域都有廣泛的應用空間,并取得了一定的成果。但是,目前真正投入使用的本體及相關科研成果還很少。
數據庫技術的發展以及數據應用的普及使得數據庫中存儲的數據量急劇增加,在這些數據中蘊含著許多重要的信息和知識,可供人們利用。目前數據庫系統所能做到的只是對數據庫中的數據進行存取、查詢和簡單統計等操作,而不能獲得數據屬性的內在關系和隱含的信息。若采用傳統的數據分析手段,如統計等也不能對這些數據進行有效的分析、處理,因此,我們希望能夠對這些數據進行較高層次的處理和分析以得到關于數據總體特征和發展趨勢的預測。知識挖掘技術的出現,在許多領域得到應用,顯示出強大的生命力。
知識挖掘是信息處理新技術,又是涉及數據庫技術、人工智能、統計學等多學科領域的邊緣學科。所謂知識挖掘,就是按照某種既定目標,從大量的、不完全的、有噪聲的、模糊的、隨機的數據中抽取隱含在其中的、事先未知的但又具有潛在應用價值的信息和知識的過程。知識挖掘與傳統分析工具不同的是知識挖掘使用的是基于發現的方法,運用模式匹配和其它算法,發現數據之間的重要聯系,甚至利用已有的數據對未來的活動進行預測。知識挖掘的目標是將大量非結構化的多媒體信息融合成有序的、分層次的、易于理解的信息,并進一步轉換成可用于預測與決策的知識。在信息檢索中應用知識挖掘技術,可大大提高檢全率和檢準率,提高信息檢索的效率和性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中機科海科技發展有限公司,未經北京中機科海科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210025598.0/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





