日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于關聯矩陣的不確定數據連接合并算法在審

專利信息
申請號: 201710050489.7 申請日: 2017-01-23
公開(公告)號: CN106897385A 公開(公告)日: 2017-06-27
發明(設計)人: 梁俊杰;王明鋒 申請(專利權)人: 武漢迎風聚智科技有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 武漢河山金堂專利事務所(普通合伙)42212 代理人: 胡清堂
地址: 430077 湖北省武*** 國省代碼: 湖北;42
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 關聯 矩陣 不確定 數據 連接 合并 算法
【說明書】:

技術領域

發明涉及計算機軟件技術領域,具體地,涉及一種基于關聯矩陣,確定數據表的連接合并規則,解決不確定數據表的連接合并問題的算法。

背景技術

隨著互聯網技術的蓬勃發展,我們已經進入了大數據時代,要從海量的數據中提取出有價值的信息變得更加復雜。在網絡中存在許多看似相互獨立的數據,實際上他們都是對同一類對象從不同方面的描述,例如同一個人或同一件商品在不同的網站,由于網站關注的角度不同,其存儲的關于人或商品對象的屬性信息也不完全相同。如果能夠找到一種方法,整合多個不同來源且數據項含義不明確、數據對象不明確的數據,得到數據描述對象的詳細信息,則對人們了解對象全貌有很大的幫助。

其中,不確定數據連接合并算法本質是在數據項含義不明確的數據表間找出關聯記錄,并將關聯記錄進行連接合并。對于多個不同來源且數據項含義不明確、數據對象不明確的數據表,要將各表中表示同一對象的記錄合并在一起得到對象的全息影像,需要解決兩個主要問題,首先如何確定數據表的連接合并順序,避免可以進行合并的記錄被遺漏;其次如何降低大數據應用場景下,表關聯操作的計算復雜性問題,對于兩個不確定數據表如果直接進行連接匹配計算量非常大,如兩個維度分別為m維和n維的數據表,進行連接合并時需要進行m*n次屬性值相似匹配。

發明內容

為了克服現有技術的不足,本發明提供一種基于關聯矩陣的不確定數據連接合并算法,以解決數據項含義不明確、數據對象不明確的數據難以進行連接合并的問題。

本發明為解決上述技術問題所采用的技術方案是:一種基于關聯矩陣的不確定數據連接合并算法,包括以下步驟:

步驟1:引入屬性重要度,數據表中數據對象的某一屬性的重要度越高則表示該屬性對該類數據對象的區分度越大;計算數據表中各屬性的重要度,找出數據表所有屬性重要度的最大值;

假設對象r1{P1,P2}和r2{P1,P2},對應的屬性值分別為r1(p11,p12)和r2(p21,p22),r1和r2表示同一實體時,記為:當對象r1在屬性P1上的取值p11和對象r2在屬性P1上的取值p21相同時,r1和r2表示同一實體的概率為同樣

若說明屬性P1相對屬性P2對該類對象具有更大的區分度,則可以將條件概率作為屬性P1的重要度,記為

為了方便計算,我們可以采用以下思路來計算屬性重要度:當r1和r2為不同的對象,p11=p21相等的概率為P(p11=p21|r1≠r2),由條件概率知,P(p11=p21|r1≠r2)與存在反比關系,因此屬性P1的重要度

針對數據表T={P1,P2,...,Pn},Pi的取值為統計Pi中每個不同屬性值的出現次數,如表1所列:

表1屬性Pi的取值分布

由于同一數據表中存在同一對象的概率很小,因此在大數據表中可以認為每一條記錄代表一個不同的對象,基于該假設,其值相等的概率為由于可得則屬性Pi的重要度為:

由于此值范圍較大,不利于后期記錄相似度的計算,因此對其進行平滑化處理和歸一化處理,得到:

其中Wp max表示數據表T所有屬性重要度的最大值。

步驟2:確定數據表之間的關聯度,并建立關聯矩陣;

步驟201,采用杰卡德相似系數來計算屬性相似度,并以此確定表間關聯屬性

杰卡德相似系數是衡量兩個集合相似度的一種指標,設表Ti、Tj在某個屬性上取值集合分別為PVia和PVjb,它們的交集元素在并集中所占的比例,稱為兩個集合的杰卡德相似系數,即為屬性值集合PVia和PVjb的相似度:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢迎風聚智科技有限公司,未經武漢迎風聚智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710050489.7/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 久久婷婷国产麻豆91天堂徐州| 理论片午午伦夜理片在线播放| 99精品视频免费看| 91久久国产露脸精品国产| xxxxhdvideosex| 国产欧美亚洲一区二区| 久久99精品久久久秒播| 中文字幕另类日韩欧美亚洲嫩草| 日韩久久影院| 午夜精品一区二区三区三上悠亚 | 国产欧美日韩在线观看| 日韩精品久久久久久久的张开腿让| 国产精品综合在线观看| 国产偷自视频区视频一区二区| av国产精品毛片一区二区小说| 夜夜嗨av一区二区三区中文字幕| 19videosex性欧美69| 久久精品视频偷拍| 91麻豆国产自产在线观看hd| 91波多野结衣| 国产精品久久久久免费a∨大胸 | 久久婷婷国产综合一区二区| 91高跟紫色丝袜呻吟在线观看| 午夜少妇性影院免费观看| 视频一区二区三区欧美| 欧美日韩一级二级三级| 国产一区二区黄| 狠狠色丁香久久综合频道 | 午夜国内精品a一区二区桃色| 日韩久久精品一区二区三区| 国产精品视频99| 国产97久久| 国产精品三级久久久久久电影| 91人人精品| 欧美精品一卡二卡| 欧美精品乱码视频一二专区| 日韩av在线影视| av中文字幕一区二区| 欧美精品一区二区久久久| 91看黄网站| 欧美精品国产一区| 夜夜嗨av一区二区三区中文字幕| 在线精品一区二区| 亚洲欧美日韩在线看| 亚洲一二三在线| 日韩一区二区三区福利视频| 国产在线不卡一| 国产91精品一区二区麻豆亚洲| 老太脱裤子让老头玩xxxxx | 午夜欧美a级理论片915影院| 欧美国产精品久久| 欧美老肥婆性猛交视频| 国产一区观看| 久久久久久久亚洲国产精品87| 国产69久久久欧美一级| 国产欧美一区二区精品婷| 99re热精品视频国产免费| 国产品久久久久久噜噜噜狼狼 | 国产欧美一区二区三区沐欲| 农村妇女毛片精品久久| 国产欧美精品久久| 欧美一区二粉嫩精品国产一线天| 国产福利一区在线观看| 色噜噜狠狠狠狠色综合久| 一区二区久久精品| 色午夜影院| 丰满岳乱妇在线观看中字| 91国产一区二区| 99久久婷婷国产亚洲终合精品| 99国产精品欧美久久久久的广告| 日韩亚洲精品在线| 久久福利视频网| 国产精品乱综合在线| 午夜看片网站| 午夜免费一级片| 一区二区久久精品66国产精品| 国语对白一区二区三区| 午夜生活理论片| a级片一区| 午夜色大片| 午夜色影院| 粉嫩久久99精品久久久久久夜|