[發明專利]利用索引來搜索結構化文檔的系統和方法有效
| 申請號: | 200810095185.3 | 申請日: | 2008-03-20 |
| 公開(公告)號: | CN101271474A | 公開(公告)日: | 2008-09-24 |
| 發明(設計)人: | 酒井美由紀;松井浩二;中西基起 | 申請(專利權)人: | 株式會社東芝;東芝解決方案株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市中咨律師事務所 | 代理人: | 楊曉光;于靜 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 索引 搜索 結構 文檔 系統 方法 | ||
技術領域
本發明涉及利用索引對存儲在數據庫中的結構化文檔進行搜索的系統和方法,更特別地,涉及適合如下情況的結構化文檔搜索系統和方法,其中根據一搜索條件來指定覆蓋多個節點值的值搜索以及對于為所述多個節點所共有的一個相關節點的搜索。
背景技術
把一具有邏輯結構的文檔稱為一結構化文檔。在一結構化文檔中,所述文檔的邏輯結構由寫在所述文檔中的標簽指示。利用所述標簽表示其邏輯結構的結構化文檔適合在計算機上處理。
擴展標記語言(XML)是廣泛使用的利用標簽來描述數據的手段。XML的特點是利用有意義標簽的層次數據和結構的自由擴展。由于應用XML的技術使這些特征很好地使用,被稱為XML數據庫(XMLDB)的數據庫被人們所熟知。所述XML數據庫由一稱為XML數據庫管理系統(XMLDBMS)的數據庫管理系統所控制。所述XML數據庫提供存儲XML文檔和搜索一XML文檔(在所述XML文檔中指定的結構)的功能。
利用XML書寫的所述XML文檔被認為是結構化文檔的代表。一XML文檔由構成一樹狀結構的元素所組成。每個元素也被稱為一個節點(或標簽節點),由一標簽和一內容(或值)組成。所述樹狀結構從作用為根(根節點)的元素開始。所述單個元素被配置成這樣的方式,它們具有父-子關系和兄弟-姐妹關系。
經常使用一標準化搜索語言來搜索XML文檔中的節點。XPath和XQuery被認為是典型的查詢語言。XPath用于通過指定所述XML文檔中元素(或節點)的位置來進行搜索。
在包括一XML數據庫管理系統的XML文檔搜索系統(或者一結構化文檔搜索系統)中,為了加快搜索,索引被對應附加給被認為是值搜索的可能目標的節點(例如,參見日本專利申請KOKAI公開號2006-018584的第0013段)。這樣的索引被稱為值索引。
附圖2示例了樹狀結構的XML文檔的例子。在一存儲附圖2的所述XML文檔的數據庫(XML數據庫)中,假定搜索一滿足標題為“TCP...”的條件的書。在這個例子中,以例如Xpath描述由一客戶(一客戶終端)作出的查詢(下文中,稱為第一查詢),給出如下:
/bib/book[title=”TCP..”]
為了加快基于第一查詢(XPath)的搜索,值索引被對應附加給被認為是值搜索的可能目標的標題節點。所述值索引由值(關鍵詞),例如“TCP..”和“Adv..”,以及節點IDs的集合所組成。節點ID是分配給每個節點的唯一數字,其指示存儲于所述數據庫中的一XML文檔中的一邏輯位置(節點位置)。
附圖22A到22C示例了值索引的例子。附圖22A示例了具有標題名字的值的節點(標題節點)的值索引的例子。附圖22B示例了具有最后名字的值的節點(最后節點)的值索引的例子。附圖22C示例了具有第一名字的值的節點(第一節點)的值索引的例子。這些值索引通常被保存在一值索引表格中。
在基于從客戶向XML文檔搜索系統的一查詢的搜索中,利用一節點(元素)的值作為一關鍵詞進行索引的搜索。如果相應的索引被找到,可以獲得相應于所述值的節點ID。在所述第一查詢(XPath)的例子中,所述XML文檔搜索系統可以從被對應附加給所述標題節點的所述值索引中確定存在滿足標題為“TCP..”的條件的節點,并且節點ID是3(參見附圖22A)。
如上描述的,在搜索中利用索引(值索引)的所述XML文檔搜索系統具有下面優點。首先,所述XML文檔搜索系統可以確定是否存在符合所述查詢條件的節點而不必搜索存儲于所述數據庫中的所有XML文檔(或細查所述XML文檔)。如果存在這樣的節點,所述XML文檔搜索系統可以確定所述節點的位置。這使得所述XML文檔搜索系統能夠高速執行搜索。
為了加快指定了結構條件的搜索,已知一種抽取存儲在所述數據庫中的XML文檔上的結構信息并且編譯一索引的方法。這樣的索引被認為是結構索引。所述結構索引包括指示結構的一組路徑字符串,例如“/”或“/bib”,以及具有所述結構的節點的節點ID。如果有多個節點符合相同的路徑字符串(如,在附圖2的例子中的“/bit/book”),所述多個節點ID相應于相同路徑字符串。這樣的結構索引的數據結構與應用于后面說明的本發明實施例的結構索引相同。因此,如果需要的話參考附圖6。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝;東芝解決方案株式會社,未經株式會社東芝;東芝解決方案株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810095185.3/2.html,轉載請聲明來源鉆瓜專利網。





