[發明專利]基于屬性共現模式的DeepWeb查詢接口模式匹配方法有效
| 申請號: | 201410311727.1 | 申請日: | 2014-07-02 |
| 公開(公告)號: | CN104036046B | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 馮永;陸維 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 重慶市前沿專利事務所(普通合伙)50211 | 代理人: | 郭云 |
| 地址: | 400044 *** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 屬性 模式 deep web 查詢 接口 匹配 方法 | ||
技術領域
本發明涉及計算機領域,Deep Web數據集成的一個模塊,即查詢接口模式匹配。將數據挖掘中的相關性挖掘技術很好地應用到查詢接口模式匹配問題上,同時,將查詢接口模式匹配問題抽象成為一種相關性挖掘現象。本發明尤其涉及一種基于屬性共現模式的Deep Web查詢接口模式匹配方法。
背景技術
一方面,DCM通過負相關度量間接得到的正相關度量mp=1-mn,這里mp經過化簡,(下標n表示負相關,下標p表示正相關。f10表示屬性Ap出現的情況下Aq不出現的次數,f01類似;f1+表示屬性Ap出現的次數,f+1表示屬性Aq出現的次數。)
由于兩個屬性被判斷為正相關的,是依據兩者通常會一起出現的特點。但等式的前兩項和并不能描述兩屬性具有正相關性的含義,從而錯誤地作為正相關支撐。只有第三項能夠更加真實和準確地反映兩個屬性的正相關強度,即屬性Ap出現的情況下,屬性Aq同時出現的概率與屬性Aq出現的情況下,屬性Ap同時出現的概率兩者的乘積越大,表示兩者的正相關性越強,即Ap和Aq構成組關系的可能性會越高。
另一方面,對于DCM方法中的負相關度量這里0≤mn≤1,mn越接近于1,表示兩個屬性的負相關性越強。當出現兩個屬性同時出現的次數f11=0時,則f1+=f10+f11=f10且f+1=f01+f11=f01,導致mn恒等于1。所以憑借這樣的mn根本無法辨識兩個屬性到底是具有真正的負相關性,還是完全無關的情況。
例如:屬性Ap和Aq出現的兩種情形,其中,Ap、Aq表示任意兩個屬性的名稱。
如圖1所示。在圖1A中,屬性Ap實際上只是一個稀有屬性,Ap和Aq很有可能是無關的,但因為存在很高的使得Ap和Aq會被誤以為具有匹配關系;而圖1B中,Ap和Aq因為頻繁地交叉出現,是真正具有組關系的兩個屬性。對于圖1A和1B兩種不同的情況,DCM的mn度量卻計算出相同的負相關度量值mn=1。所以,DCM的負相關度量mn具有這樣的兩個缺陷:一是當f11=0時,mn無法辨識兩個屬性到底是具有真正的負相關性,還是完全無關的情況;二是mn對于稀有屬性也有可能給予很高的匹配得分。圖1是屬性Ap和Aq出現的兩種情形。
發明內容
本發明旨在至少解決現有技術中存在的技術問題,特別創新地提出了一種基于屬性共現模式的Deep Web查詢接口模式匹配方法。
為了實現本發明的上述目的,本發明提供了一種基于屬性共現模式的Deep Web查詢接口模式匹配方法,其關鍵在于,包括如下步驟:
步驟1,從每個數據源的查詢接口抽取的模式集合S,找到所述模式集合S出現模式頻率大于等于閾值Tc的屬性集合A;根據屬性集合A中每兩個屬性在所述模式集合S中的一起出現的次數,通過組關系度量公式計算出組得分;組得分大于組關系閾值Tg的兩個屬性為一個屬性組,所有這樣的屬性組構成一個集合Gp;
步驟2,根據步驟1得到的的集合Gp,根據向下閉包性質,找到具有屬性個數更多的組關系的集合G;
步驟3,發現的G中的每個潛在的屬性組分別作為一個整體加入到步驟1得到的屬性集合A中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410311727.1/2.html,轉載請聲明來源鉆瓜專利網。





