[發明專利]一種推斷XML關鍵字查詢目標節點類型的方法無效
| 申請號: | 201310193561.3 | 申請日: | 2013-05-22 |
| 公開(公告)號: | CN103279514A | 公開(公告)日: | 2013-09-04 |
| 發明(設計)人: | 馮鈞;朱祖會;唐志賢;許瀟;徐黎明;朱躍龍;萬定生;李士進;任鋒;盛震宇;史涯晴;馮讀慶;姜康;陳煥霖;朱康康;劉子源 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 推斷 xml 關鍵字 查詢 目標 節點 類型 方法 | ||
技術領域
本發明涉及信息檢索中推斷用戶搜索意圖的方法,具體是一種推斷XML關鍵字查詢目標節點類型的方法,屬于信息檢索技術領域。
背景技術
由于具備可擴展性、靈活性和自描述性,XML逐漸成為信息系統中數據存儲與交換的公認標準和復雜數據的理想載體,在互聯網中得到廣泛使用。因此,XML的查詢處理問題逐步成為了XML研究領域的一個熱點。
現有的XML查詢方法可以歸納為結構化查詢和關鍵字查詢。前者大都使用結構化查詢語言(XQuery或Xpath)對XML文檔進行查詢,用戶必須事先掌握查詢語言復雜的語法機制并了解XML文檔的模式信息,這對使用者提出了嚴格的要求,隨著互聯網的蓬勃發展,XML數據日益增長,這一問題將被放大,限制其使用范圍。與結構化查詢不同的是,基于關鍵字的查詢方法不必了解查詢語言語法機制以及XML文檔模式信息,只需要用戶檢索關鍵字即可,成為互聯網環境下XML檢索的理想解決方案。
目前,XML關鍵字查詢方法主要圍繞如何定義有效的查詢語義展開研究。LCA(Lowest?Common?Ancestor)方法直接將關鍵字的最低公共祖先作為查詢結果返回。SLCA(Smallest?LCA)方法是找到最小的LCA節點,即LCA節點V包含所有關鍵字,并且在V的子樹中不包含其他LCA節點。XSEarch方法提出了用于判斷兩個節點之間是否語義相關Interconnection概念,即對于XML文檔中的兩個節點,若在連接這兩個節點的路徑上沒有出現兩個相同標簽的節點,那么他們就是語義相關的,否則就是語義無關。ELCA(Exclusive?LCA)提出若一個關鍵字查詢序列Q的LCA節點V,在去掉其子樹中包含的所有LCA子樹后仍然是一個LCA,稱V為ELCA節點。XSeek方法借鑒了結構化查詢中將輸入關鍵字分類的思想,將查詢關鍵字分為結果關鍵字和謂詞關鍵字兩大類。結果關鍵字是用戶真正想要的信息,而謂詞關鍵字則充當了限制條件的角色。首先找到關鍵字序列的SLCA集合,然后對集合中的每一個節點為根的子樹判斷哪些是結果關鍵字,哪些是謂詞關鍵字,最后若子樹中含有結果關鍵字,則返回以結果關鍵字為根的子樹,否則,返回以SLCA節點為根的子樹。
上述方法沒有考慮到關鍵字的二義性,無法推斷出用戶搜索意圖,限制了查準率。XReal利用統計學方法來解決二義性問題,但是在推斷目標節點時,并不能保證所得到的目標節點類型存在一個或多個實例節點含有全部關鍵字。以致于查詢率不高。
發明內容
發明目的:針對上述背景技術的不足,本發明提出一種推斷XML關鍵字查詢目標節點類型的方法,基于詞頻和節點類型的層次信息,并結合目標節點類型應存在一個或多個實例節點包含全部關鍵字這一因素,推斷目標節點類型。
技術方案:一種推斷XML關鍵字查詢目標節點類型方法,包括如下步驟:
步驟A:獲取XML文檔中的實體節點類型以及計算各實體節點類型的層次。
步驟B:計算查詢關鍵字在不同實體節點類型下出現的頻率即詞頻。
步驟C:計算各實體節點類型與查詢關鍵字的相關度并對實體節點類型按相關度降序排序。
步驟D:獲取相關度最大的實體節點類型。
步驟E:判斷是否存在實例節點含有所有的查詢關鍵字。若存在,轉到步驟F;否則獲取下一個實體節點類型,執行E。
步驟F:將該實體節點類型作為目標節點類型返回。
所述推斷XML關鍵字查詢目標節點類型方法步驟A的具體實現如下:
步驟A-1:根據定義:在XML文檔樹中,若節點n的上一層父節點與本層節點間存在一對多的關系,稱n為實體節點。節點n的節點類型為根節點到節點n的前綴路徑。若節點n為實體節點,則節點n的節點類型為實體節點類型。得到XML文檔的所有實體節點類型。
步驟A-2:使用列表按層次高低依次存儲實體節點類型的層次信息,層次相同的節點類型合并為一個元素存入列表中。
所述的推斷XML關鍵字查詢目標節點類型方法步驟C具體實現如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310193561.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:非結構化數據檢索方法及系統
- 下一篇:一種采用動態查詢語言的快速查詢方法





