[發(fā)明專利]基于語義相關(guān)的XML文檔關(guān)鍵字檢索排序方法有效

申請?zhí)枺?/td>	201110007177.0	申請日：	2011-01-13
公開（公告）號：	CN102081660A	公開（公告）日：	2011-06-01
發(fā)明（設(shè)計）人：	陳群;王鵬;婁穎;崔海文;李霞;張立軍;李戰(zhàn)懷	申請（專利權(quán)）人：	西北工業(yè)大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	西北工業(yè)大學專利中心 61204	代理人：	顧潮琪
地址：	710072 ***	國省代碼：	陜西;61
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于語義相關(guān) xml 文檔關(guān)鍵字檢索排序方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明屬于可擴充標記語言(XML)關(guān)鍵字檢索技術(shù)領(lǐng)域，具體涉及一種XML文檔關(guān)鍵字檢索排序方法。

背景技術(shù)

作為一種互聯(lián)網(wǎng)上和企業(yè)應用中信息描述和信息交換的國際標準，XML(eXtensible?Markup?Language)具有語義標示、易擴展、開放性和互操作性等諸多優(yōu)點。隨著XML技術(shù)的推廣和XML數(shù)據(jù)的不斷增大，針對XML文檔的信息檢索技術(shù)已經(jīng)成為信息檢索和數(shù)據(jù)庫等相關(guān)領(lǐng)域的研究熱點。

傳統(tǒng)的信息檢索技術(shù)主要是針對文本文檔和HTML文檔。XML文檔區(qū)別于文本和HTML文檔的重要特征是其包含了豐富的語義和結(jié)構(gòu)信息，這些信息有助于判斷XML文檔與用戶信息需求之間的相關(guān)性。另一方面，與文本和HTML檢索不同，XML信息檢索要求返回的是以XML文檔中某個元素(Element)為根結(jié)點的片段，不必返回整個文檔，提高了檢索效率。與XML文檔查詢語言比如XQuery，XPath，XQL等相比，基于關(guān)鍵字的XML信息檢索技術(shù)的主要優(yōu)勢就是用戶不需要學習復雜的查詢語言，也不需要對XML文檔的結(jié)構(gòu)有深入的了解，用戶僅僅需要輸入相應的關(guān)鍵字即可。因此，基于關(guān)鍵字的XML信息檢索技術(shù)在現(xiàn)階段有著更多的需求和更好的應用前景。

目前，基于XML關(guān)鍵字檢索的方法大都是基于LCA(Lowest?Common?Ancestor)的思想(如V.Hristidis，N.Koudas，Y.Papakonstantinou，and?D.Srivastava.Keyword?Proximity?Search?inXML?Trees.In?IEEE?Trans.Knowl.Data?Eng.2006，18(4)；pages525-539.)，首先定位LCA結(jié)點(包含所有關(guān)鍵字)，然后再返回以該LCA結(jié)點為根結(jié)點的片段。文獻“L.Guo，F(xiàn).Shao，C.Botev，and?J.Shanmugasundaram.XRank：Ranked?keyword?search?over?xml?documents.In?SIGMOD，2003；pages?16-27.”中XRANK提出的ELCA(Exclusive?LCA)就是借助LCA的思想來解決關(guān)鍵字完全匹配問題。文獻“Y.Xu?and?Y.Papakonstantinou.Efficient?keyword?search?for?smallest?lcas?in?xml?databases.In?SIGMOD，2005，pages?527-538.”提出了SLCA(Smallest?Lowest?Common?Ancestor)，即最小最低公共祖先的概念，以SLCA為根節(jié)點的子樹被定義為包含所有關(guān)鍵字，并且任意一棵它的子樹都不包含所有關(guān)鍵字的子樹。文獻“Guoliang.Li，Jianhua?Feng，Jianyong?Wang?and?Lizhu?Zhou?Effective?keyword?search?for?valuable?LCAs??over?XMLdocument?in?CIKM?pages?30-41，2007.”提出了VLCA(Valuable?Lowest?Common?Ancestor)的概念，如果構(gòu)成LCA的關(guān)鍵字結(jié)點是同構(gòu)的，那么此LCA就是一個VLCA。文獻“Y.Xu?and?Y.Papakonstantinou.Efficient?LCA?based?Keyword?Search?in?XML?Data.In?EDBT，2008.”結(jié)合XRANK和SLCA給出了一種可以更有效地計算ELCA的算法-IS(Indexed?Stack)。雖然上述方法在LCA思想基礎(chǔ)上提出了各自判斷查詢結(jié)果的相關(guān)性的方法，但仍未能準確的反映出XML的結(jié)構(gòu)語義對查詢結(jié)果相關(guān)度的影響，效果并不理想。

例如圖1中顯示了XML文檔的樹形結(jié)構(gòu)，記錄了一個會議的名字、主席以及收錄的論文等信息。每個節(jié)點用其標簽標示，標簽上面的數(shù)字是它的Dewey編碼。如果用戶輸入查詢Q＝{chen，XML}則按照SLCA的思想，結(jié)果包含以節(jié)點0.0為根和以0.1.1為根和的子樹，而沒有以節(jié)點0.1為根的子樹。

發(fā)明內(nèi)容

為了克服現(xiàn)有技術(shù)未能準確的反映出XML的結(jié)構(gòu)語義對查詢結(jié)果相關(guān)度的影響的不足，本發(fā)明提供一種基于語義相關(guān)的XML文檔關(guān)鍵字檢索排序方法，較好的解決了檢索目標與用戶信息需求的一致性問題，并確保了查詢結(jié)果的信息完整性。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案包含以下步驟：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學，未經(jīng)西北工業(yè)大學許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201110007177.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復雜數(shù)學運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】