[發明專利]基于查詢接口連接圖的深層網頁數據源分類管理方法有效
| 申請號: | 200810024251.8 | 申請日: | 2008-05-16 |
| 公開(公告)號: | CN101320370A | 公開(公告)日: | 2008-12-10 |
| 發明(設計)人: | 崔志明;趙朋朋;方巍 | 申請(專利權)人: | 崔志明;趙朋朋;方巍 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 蘇州創元專利商標事務所有限公司 | 代理人: | 陶海鋒 |
| 地址: | 215001江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 查詢 接口 連接 深層 網頁 數據源 分類 管理 方法 | ||
1.一種基于查詢接口連接圖的深層網頁數據源分類管理方法,其特征在于,包括下列步驟:
(1)獲取深層網頁查詢接口表單集合;
(2)自動抽取步驟(1)獲取的查詢接口表單的特征值,所述特征值包括表單標簽的名稱以及屬性值;
(3)構造表單特征向量,包括,將提取的標簽的名稱和屬性值分別構造特征空間LS和VS,對LS和VS中的每個表單形成的特征集合構造一個對應的特征向量,由此獲得向量集合;
(4)在步驟(3)獲得的向量集合中,對每個向量之間通過相似性計算獲得關于標簽、屬性值、標簽與屬性值組合的查詢接口連接圖,分別可用LableMatrix、ValueMatrix、LableValueMatrix鄰接矩陣來表示,查詢接口之間的關聯度計算方法為:
在基于標簽的表單關聯度計算中,利用標簽的相同特征項的數量進行衡量,并進行標準化,
其中,sw表示表單F1和F2具有相同標簽的個數,len表示F1和F2中標簽特征向量的平均長度,兩者相除進行標準化,SimL(F1,F2)表示基于標簽(Label,L)的表單F1和F2的關聯權值;
基于屬性值以及標簽與屬性值組合的表單關聯度計算,我們利用其向量之間的相似度函數進行計算,
式中,W1k和W2k分別表示表單F1和F2中屬性值(Value,V)集合構成的向量表示,利用向量余弦公式計算得到基于屬性值的表單F1和F2的關聯權值SimV(F1,F2),基于標簽與屬性值(Label&Value,LV)組合的表單關聯權值SimLV(F1,F2)與SimV(F1,F2)的計算方法類似,但其中W1k和W2k分別表示表單F1和F2中標簽和屬性值共同構成集合的向量表示;
(5)構造查詢接口連接圖:
將步驟(4)得到的三個矩陣LableMatrix、ValueMatrix、LableValueMatrix進行加權合并,即將上述三個矩陣中的相似度值進行加權求和作為兩兩互連的查詢接口表單之間的關聯權值;按照帶權無向連接圖的構造方法,把每個查詢接口作為圖中的一個節點,為存在一定關聯度的查詢接口之間建立一條無向邊,此關聯權值就作為邊的權值;
Sim(F1,F2)=ω1*SimL(F1,F2)+ω2*SimV(F1,F2)+ω3*SimLV(F1,F2)
其中,ω1、ω2、ω3表示為每個關聯度分量分配的權重系數,其取值范圍ω1為0.25~0.35,ω2為0.15~0.25,ω3為0.45~0.55,可用基于遺傳算法確定這些權值的最優值,Sim(F1,F2)表示查詢接口表單F1和F2的關聯權值,由此形成一個深層網頁查詢接口連接圖,可用鄰接矩陣FormLinkMatrix表示;
(6)利用聚類方法對查詢接口表單帶權無向連接圖進行聚類;
(7)得到深層網頁數據源聚類結果,結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于崔志明;趙朋朋;方巍,未經崔志明;趙朋朋;方巍許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810024251.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:壁掛式滅蚊器
- 下一篇:微孔反應板全自動快速清洗機





