[發(fā)明專利]基于語義相關(guān)的XML文檔關(guān)鍵字檢索排序方法有效
| 申請?zhí)枺?/td> | 201110007177.0 | 申請日: | 2011-01-13 |
| 公開(公告)號: | CN102081660A | 公開(公告)日: | 2011-06-01 |
| 發(fā)明(設(shè)計)人: | 陳群;王鵬;婁穎;崔海文;李霞;張立軍;李戰(zhàn)懷 | 申請(專利權(quán))人: | 西北工業(yè)大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西北工業(yè)大學專利中心 61204 | 代理人: | 顧潮琪 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 語義 相關(guān) xml 文檔 關(guān)鍵字 檢索 排序 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于可擴充標記語言(XML)關(guān)鍵字檢索技術(shù)領(lǐng)域,具體涉及一種XML文檔關(guān)鍵字檢索排序方法。
背景技術(shù)
作為一種互聯(lián)網(wǎng)上和企業(yè)應用中信息描述和信息交換的國際標準,XML(eXtensible?Markup?Language)具有語義標示、易擴展、開放性和互操作性等諸多優(yōu)點。隨著XML技術(shù)的推廣和XML數(shù)據(jù)的不斷增大,針對XML文檔的信息檢索技術(shù)已經(jīng)成為信息檢索和數(shù)據(jù)庫等相關(guān)領(lǐng)域的研究熱點。
傳統(tǒng)的信息檢索技術(shù)主要是針對文本文檔和HTML文檔。XML文檔區(qū)別于文本和HTML文檔的重要特征是其包含了豐富的語義和結(jié)構(gòu)信息,這些信息有助于判斷XML文檔與用戶信息需求之間的相關(guān)性。另一方面,與文本和HTML檢索不同,XML信息檢索要求返回的是以XML文檔中某個元素(Element)為根結(jié)點的片段,不必返回整個文檔,提高了檢索效率。與XML文檔查詢語言比如XQuery,XPath,XQL等相比,基于關(guān)鍵字的XML信息檢索技術(shù)的主要優(yōu)勢就是用戶不需要學習復雜的查詢語言,也不需要對XML文檔的結(jié)構(gòu)有深入的了解,用戶僅僅需要輸入相應的關(guān)鍵字即可。因此,基于關(guān)鍵字的XML信息檢索技術(shù)在現(xiàn)階段有著更多的需求和更好的應用前景。
目前,基于XML關(guān)鍵字檢索的方法大都是基于LCA(Lowest?Common?Ancestor)的思想(如V.Hristidis,N.Koudas,Y.Papakonstantinou,and?D.Srivastava.Keyword?Proximity?Search?inXML?Trees.In?IEEE?Trans.Knowl.Data?Eng.2006,18(4);pages525-539.),首先定位LCA結(jié)點(包含所有關(guān)鍵字),然后再返回以該LCA結(jié)點為根結(jié)點的片段。文獻“L.Guo,F(xiàn).Shao,C.Botev,and?J.Shanmugasundaram.XRank:Ranked?keyword?search?over?xml?documents.In?SIGMOD,2003;pages?16-27.”中XRANK提出的ELCA(Exclusive?LCA)就是借助LCA的思想來解決關(guān)鍵字完全匹配問題。文獻“Y.Xu?and?Y.Papakonstantinou.Efficient?keyword?search?for?smallest?lcas?in?xml?databases.In?SIGMOD,2005,pages?527-538.”提出了SLCA(Smallest?Lowest?Common?Ancestor),即最小最低公共祖先的概念,以SLCA為根節(jié)點的子樹被定義為包含所有關(guān)鍵字,并且任意一棵它的子樹都不包含所有關(guān)鍵字的子樹。文獻“Guoliang.Li,Jianhua?Feng,Jianyong?Wang?and?Lizhu?Zhou?Effective?keyword?search?for?valuable?LCAs??over?XMLdocument?in?CIKM?pages?30-41,2007.”提出了VLCA(Valuable?Lowest?Common?Ancestor)的概念,如果構(gòu)成LCA的關(guān)鍵字結(jié)點是同構(gòu)的,那么此LCA就是一個VLCA。文獻“Y.Xu?and?Y.Papakonstantinou.Efficient?LCA?based?Keyword?Search?in?XML?Data.In?EDBT,2008.”結(jié)合XRANK和SLCA給出了一種可以更有效地計算ELCA的算法-IS(Indexed?Stack)。雖然上述方法在LCA思想基礎(chǔ)上提出了各自判斷查詢結(jié)果的相關(guān)性的方法,但仍未能準確的反映出XML的結(jié)構(gòu)語義對查詢結(jié)果相關(guān)度的影響,效果并不理想。
例如圖1中顯示了XML文檔的樹形結(jié)構(gòu),記錄了一個會議的名字、主席以及收錄的論文等信息。每個節(jié)點用其標簽標示,標簽上面的數(shù)字是它的Dewey編碼。如果用戶輸入查詢Q={chen,XML}則按照SLCA的思想,結(jié)果包含以節(jié)點0.0為根和以0.1.1為根和的子樹,而沒有以節(jié)點0.1為根的子樹。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)未能準確的反映出XML的結(jié)構(gòu)語義對查詢結(jié)果相關(guān)度的影響的不足,本發(fā)明提供一種基于語義相關(guān)的XML文檔關(guān)鍵字檢索排序方法,較好的解決了檢索目標與用戶信息需求的一致性問題,并確保了查詢結(jié)果的信息完整性。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案包含以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學,未經(jīng)西北工業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110007177.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:擺頭切削裝置
- 下一篇:可拆卸式多功能一體鍋





