[發明專利]XML關鍵詞檢索的摘要生成方法無效
| 申請號: | 201010614955.8 | 申請日: | 2010-12-30 |
| 公開(公告)號: | CN102004802A | 公開(公告)日: | 2011-04-06 |
| 發明(設計)人: | 鄧志鴻;江家健 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京萬象新悅知識產權代理事務所(普通合伙) 11360 | 代理人: | 賈曉玲 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | xml 關鍵詞 檢索 摘要 生成 方法 | ||
技術領域
本發明涉及XML檢索技術,尤其是一種XML關鍵詞檢索的摘要生成方法,可以應用在XML關鍵詞搜索引擎以及其他結構化或者半結構化數據的關鍵詞搜索引擎中。
背景技術
自1998年誕生以來,由于開放性,自描述性以及簡潔性等特點,XML文檔現廣泛應用于互聯網,數據庫等領域,已經成為互聯網上數據交換和集成的語言標準。隨著XML文檔的大量涌現,如何快速地從大規模XML文檔中尋找出滿足用戶需求的信息成為信息檢索以及數據庫領域的一個研究熱點。一個具體的XML文件如圖1所示,圖2是圖1所示XML文檔對應的樹形結構。
XML信息檢索可分為兩大類:關鍵詞檢索和“關鍵詞+結構”檢索。由W3C(the?WorldWide?Web?Consortium)頒布的XML檢索標準XPath和XQuery是“關鍵詞+結構”檢索的代表,“關鍵詞+結構”檢索在為用戶準確表達其查詢需求方面提供了有效的描述手段,從而能獲得高質量的查詢結果。但是“關鍵詞+結構”檢索要求用戶掌握相關的查詢語言,并且對XML文檔的結構信息有所了解,從而限制了這種檢索方式在實際中的應用范圍。關鍵詞檢索是一種經過實踐證明且取得巨大成功的檢索方式,是在傳統搜索引擎中被廣泛采用的檢索手段。在傳統搜索引擎的影響下,普通互聯網用戶現在已經習慣于關鍵詞檢索方式,因為關鍵詞檢索簡單易用,能迅速被普通用戶所掌握。因此,XML關鍵詞檢索比“關鍵詞+結構”檢索更具有現實應用意義。XML關鍵詞檢索也因此成為了XML信息檢索領域的研究重點。
XML關鍵詞檢索即用戶以關鍵詞作為表達查詢的手段對XML文檔(集)進行檢索的模式。由于XML文檔是包含層次結構信息的,而關鍵詞檢索只能模糊地表達用戶的查詢語義,如何通過關鍵詞檢索,充分利用XML文檔內部的結構信息,來為用戶提供精確的檢索服務就是一件非常有現實意義且具有極大挑戰性的事情。
目前,關于XML關鍵詞檢索已有相當多的研究,但對于XML檢索結果的摘要提取的技術研究仍然比較欠缺。傳統的搜索引擎(如谷歌、百度等)在對給出關鍵詞找出相應的網頁作為結果后,把每個網頁中出現關鍵詞的一段文字作為摘要返回給用戶,如附圖3所示。與傳統的搜索引擎不同,基于XML的關鍵詞檢索提供了更豐富的結構信息,大量標簽的引入以及樹形結構的組織使得每個XML文檔中各信息之間的結構關系更加清晰,這使得對每個XML文檔進行摘要提取時也能按照樹形結構組織,從而給用戶提供更加形象化的信息。
文獻[1][2][3]針對XML關鍵詞檢索的摘要提取提出了XSeek模型,并根據此模型實現了自動生成摘要的系統eXtract,系統實現的實例見附圖4。XSeek模型提出了一個好的摘要(snippet)所應滿足的幾個條件:完整性(self-contained)、可區分性(distinguishable)和代表性(representative)。完整性是指摘要應包含相關的“主語”,也就是要包含必要的實體信息,即文檔描述的對象是什么;區分性是指不同的文檔的摘要應互不相同,用戶能通過摘要就區分出不同文檔之間的差異性;代表性是指摘要應該把對應文檔的最突出的一些特征反映出來,能反映文檔的主要信息。在滿足以上三個條件的基礎上,一個好的摘要還應盡量簡短,[1]中還給出了在有長度限定(不能超過LimitSize)的情況下生成符合上述三個條件的算法,[3]對相應的eXtract系統進行了展示。
XSeek模型提出了評價一個摘要好壞的幾條標準,并實現了在長度限定的情況下生成比較符合完整性、可區分性和代表性三個條件的摘要的算法。但是XSeek模型沒有對每個評價標準給出定量的計算公式,從而不能對摘要滿足各個標準的程度進行一個準確的評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010614955.8/2.html,轉載請聲明來源鉆瓜專利網。





