[發明專利]數據檢索的方法和系統有效
| 申請號: | 200810169830.1 | 申請日: | 2008-09-28 |
| 公開(公告)號: | CN101685455A | 公開(公告)日: | 2010-03-31 |
| 發明(設計)人: | 徐惠;高志強;戴昌林;朱望斌;陳世宏 | 申請(專利權)人: | 華為技術有限公司;東南大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中博世達專利商標代理有限公司 | 代理人: | 申 健 |
| 地址: | 518129廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 檢索 方法 系統 | ||
技術領域
本發明涉及信息采集和處理領域,尤其涉及數據檢索的方法和系統。
背景技術
在現有的語義Web、問答系統、特定領域的垂直搜索、信息抽取、圖書館管 理和信息檢索等領域,經常需要將一些被認為有用的數據或詞語從數據庫中提 取出來,并根據這些數據或詞語之間的關系建立相應的樹形列表索引,以便于 用戶對相關信息的查找。本體,是感興趣領域的共享的概念化的顯式規約。通 俗地講,本體是用來描述某個領域甚至更廣范圍內的概念以及概念之間的關系, 使得這些概念和關系在共享的范圍內具有大家共同認可的、明確的、唯一的定 義。自動或半自動構建本體的方法稱為本體學習。
現有本體學習方法主要有5大類,包括:基于模式、基于關聯規則、基于 概念聚類、基于本體演化和混合策略。其中,基于概念聚類的本體學習方法, 是利用概念之間的語義距離,對概念進行聚類。這樣,同一類簇中的概念具有 語義近似的關系。目前最常見的聚類算法為層次聚類,聚類的結果就是概念間 的上下位關系。層次聚類算法按照方向可以分成兩種:一種是自底向上的合并 聚類,初始時將每個元素作為一類,每一步將最相似的兩個集合合并,直至最 終合并成一個集合;一種是自頂向下的分解聚類,初始時把全部的元素作為一個 集合,然后每一步將最不相似的兩個集合分開。
在實現上述基于概念聚類的本體學習方法的過程中,發明人發現現有技術 中至少存在如下問題:基于概念聚類的本體學習方法中,樹形結構的同級節點 按照一定順序進行本體學習,先學習的同級節點會將與自身相似度高的概念全 部作為本節點的子節點。這樣,后學習的同級節點盡管與一些先學習的同級節 點的子節點的相似度高,卻無法將其作為自身的子節點(同級節點的子節點不 可交叉)。這會導致學到的本體樹形結構不合理:節點分布極不平均,每個節點 的子節點個數不可控。這種樹形結構的偏斜將會隨著層級的增多而不斷加大, 級數越多,偏斜情況越嚴重,基于這一結構的數據檢索的準確性和完整性低。
發明內容
本發明的實施例提供一種數據檢索的方法和系統,能夠提高數據檢索的準 確性和完整性。
為達到上述目的,本發明的實施例采用如下技術方案:
一種數據檢索的方法,包括以下步驟:
通過網絡獲取電子文檔,從所述電子文檔中提取領域術語;
計算提取的領域術語之間的相似度;
將相似的領域術語以限定分支的方式逐層聚類,建立索引列表;
存儲所述索引列表;
信息檢索模塊利用索引列表進行信息檢索。
一種數據檢索的系統,包括:
術語獲取模塊:用于通過網絡獲取電子文檔,從所述電子文檔中提取領域 術語;
相似度計算模塊:用于計算所述術語獲取模塊提取的領域術語之間的相似 度;
聚類模塊:用于將所述相似度計算模塊判定的相似的領域術語,以限定分 支的方式逐層聚類,建立索引列表;
存儲模塊:用于存儲所述索引列表;
信息檢索模塊:用于利用索引列表進行信息檢索。
一種數據檢索的方法,包括以下步驟:
通過逐層聚類的方式,建立索引列表;
存儲所述索引列表;
信息檢索模塊利用索引列表進行信息檢索。
一種數據檢索的系統,包括:
聚類建立索引列表模塊:用于通過逐層聚類的方式,建立索引列表;
存儲模塊:用于存儲所述索引列表;
信息檢索模塊:用于利用索引列表進行信息檢索。
本發明實施例提供的數據檢索的方法、系統,在逐層聚類時,通過限定分 支的形式,限定了每個節點的子(父)節點數量,這樣就有效避免了同級節點 中,先學習的節點大量占用后學習的節點的子(父)節點的問題,可以生成準 確性和完整性較高的,可以作為列表索引的樹形結構,進而提高數據檢索的準 確性和完整性。
附圖說明
圖1為本發明方法實施例一的流程圖;
圖2為本發明方法實施例二從電子文檔中提取領域術語的步驟流程圖;
圖3為本發明方法實施例二計算提取的領域術語之間的關系的步驟流程圖;
圖4為本發明方法實施例二將有關系的領域術語以限定分支的方式逐層聚 類的步驟流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司;東南大學,未經華為技術有限公司;東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810169830.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





