[發明專利]XML關鍵詞檢索的摘要生成方法無效
| 申請號: | 201010614955.8 | 申請日: | 2010-12-30 |
| 公開(公告)號: | CN102004802A | 公開(公告)日: | 2011-04-06 |
| 發明(設計)人: | 鄧志鴻;江家健 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京萬象新悅知識產權代理事務所(普通合伙) 11360 | 代理人: | 賈曉玲 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | xml 關鍵詞 檢索 摘要 生成 方法 | ||
1.一種XML關鍵詞檢索的摘要生成方法,包括如下步驟:1)輸入查詢Q;2)找到與Q相關的XML文檔;3)提取文檔中的屬性a;4)計算屬性a的權重;5)選取權重值最大的K個屬性,加入到摘要中;
其特征在于,
所述步驟4)中屬性a的權重W的計算方法如下:
W(e,a)=(Dist(a)·Expl(a,Q))Corr(e,a),
其中,
-Dist(a)用于衡量屬性a的區分性強弱,
Dist(a)=exp(pa)·H(a)
其中,pa指屬性a在該類實體中出現的比例,H(a)是屬性a的信息熵;
-Expl(a,Q)用于衡量屬性a對于查詢Q的明確性,
其中,Q={q1,q2,……qn},|qi|表示關鍵詞qi的長度,|a|表示屬性a的值節點的長度;
-Corr(e,a)用于衡量屬性a與實體e間的關聯性;
其中,Num(ei)表示路徑中第i個實體同層的該類實體的個數。
2.如權利要求1所述的摘要生成方法,其特征在于,所述K的取值為5~7。
3.如權利要求1所述的摘要生成方法,其特征在于,在步驟1)之前進一步包括:對XML文檔進行預處理,把XML文檔中的元素歸并為三類:關系、實體和屬性。
4.如權利要求3所述的摘要生成方法,其特征在于,在XML數據集預處理時把下列信息存儲在索引文件中:所有屬性節點的長度,所有屬性強度的區分性強弱,所有實體節點的子節點中同名實體節點的數量。
5.如權利要求4所述的摘要生成方法,其特征在于,所述屬性強度的區分性強弱是通過計算屬性的熵得到的。
6.一種衡量XML關鍵詞檢索的摘要的重要性程度的模型,記作MRepA模型,其特征在于,所述模型包含如下三個評價要素:區分性,明確性,關聯性;該模型衡量XML關鍵詞檢索的摘要的重要性程度的計算公式為W(e,a)=(Dist(a)·Expl(a,Q))Corr(e,a),其中
-Dist(a)用于衡量屬性a的區分性強弱,
Dist(a)=exp(pa)·H(a)
其中,pa指屬性a在該類實體中出現的比例,H(a)是屬性a的信息熵;
-Expl(a,Q)用于衡量屬性a對于查詢Q的明確性,
其中,Q={q1,q2,……qn},|qi|表示關鍵詞qi的長度,|a|表示屬性a的值節點的長度;
-Corr(e,a)用于衡量屬性a與實體e間的關聯性;
其中,Num(ei)表示路徑中第i個實體同層的該類實體的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010614955.8/1.html,轉載請聲明來源鉆瓜專利網。





