[發明專利]XML關鍵詞檢索的摘要生成方法無效

申請號：	201010614955.8	申請日：	2010-12-30
公開（公告）號：	CN102004802A	公開（公告）日：	2011-04-06
發明（設計）人：	鄧志鴻;江家健	申請（專利權）人：	北京大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京萬象新悅知識產權代理事務所(普通合伙) 11360	代理人：	賈曉玲
地址：	100871***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	xml 關鍵詞檢索摘要生成方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種XML關鍵詞檢索的摘要生成方法，包括如下步驟：1)輸入查詢Q；2)找到與Q相關的XML文檔；3)提取文檔中的屬性a；4)計算屬性a的權重；5)選取權重值最大的K個屬性，加入到摘要中；

其特征在于，

所述步驟4)中屬性a的權重W的計算方法如下：

W(e，a)＝(Dist(a)·Expl(a，Q))^Corr(e，a)，

其中，

-Dist(a)用于衡量屬性a的區分性強弱，

Dist(a)＝exp(p_a)·H(a)

H(a)=-Σi=1np(ai)·log[p(ai)],]]>

其中，p_a指屬性a在該類實體中出現的比例，H(a)是屬性a的信息熵；

-Expl(a，Q)用于衡量屬性a對于查詢Q的明確性，

其中，Q＝{q₁，q₂，……q_n}，|q_i|表示關鍵詞q_i的長度，|a|表示屬性a的值節點的長度；

-Corr(e，a)用于衡量屬性a與實體e間的關聯性；

Corr(e,a)=klength(e,a)·Πi=1nNum(ei),]]>

其中，Num(e_i)表示路徑中第i個實體同層的該類實體的個數。

2.如權利要求1所述的摘要生成方法，其特征在于，所述K的取值為5～7。

3.如權利要求1所述的摘要生成方法，其特征在于，在步驟1)之前進一步包括：對XML文檔進行預處理，把XML文檔中的元素歸并為三類：關系、實體和屬性。

4.如權利要求3所述的摘要生成方法，其特征在于，在XML數據集預處理時把下列信息存儲在索引文件中：所有屬性節點的長度，所有屬性強度的區分性強弱，所有實體節點的子節點中同名實體節點的數量。

5.如權利要求4所述的摘要生成方法，其特征在于，所述屬性強度的區分性強弱是通過計算屬性的熵得到的。

6.一種衡量XML關鍵詞檢索的摘要的重要性程度的模型，記作MRepA模型，其特征在于，所述模型包含如下三個評價要素：區分性，明確性，關聯性；該模型衡量XML關鍵詞檢索的摘要的重要性程度的計算公式為W(e，a)＝(Dist(a)·Expl(a，Q))^Corr(e，a)，其中

-Dist(a)用于衡量屬性a的區分性強弱，

Dist(a)＝exp(p_a)·H(a)

H(a)=-Σi=1np(ai)·log[p(ai)],]]>

其中，p_a指屬性a在該類實體中出現的比例，H(a)是屬性a的信息熵；

-Expl(a，Q)用于衡量屬性a對于查詢Q的明確性，

其中，Q＝{q₁，q₂，……q_n}，|q_i|表示關鍵詞q_i的長度，|a|表示屬性a的值節點的長度；

-Corr(e，a)用于衡量屬性a與實體e間的關聯性；

Corr(e,a)=klength(e,a)·Πi=1nNum(ei),]]>

其中，Num(e_i)表示路徑中第i個實體同層的該類實體的個數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京大學，未經北京大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201010614955.8/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】