[發(fā)明專利]基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法在審
| 申請?zhí)枺?/td> | 202010036184.2 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111275081A | 公開(公告)日: | 2020-06-12 |
| 發(fā)明(設計)人: | 虞慧婷;王春芳;臧嘉捷;崔欣;陳國武 | 申請(專利權(quán))人: | 上海市疾病預防控制中心 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/2458 |
| 代理公司: | 上海智信專利代理有限公司 31002 | 代理人: | 王潔;鄭暄 |
| 地址: | 200336 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 貝葉斯 概率 模型 實現(xiàn) 來源 數(shù)據(jù) 鏈接 處理 方法 | ||
1.一種基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法,其特征在于,所述的方法包括以下步驟:
(1)對源數(shù)據(jù)的數(shù)據(jù)進行預處理,分析可進行比對的字段;
(2)對全鏈接數(shù)據(jù)集的字符型變量和非字符型變量進行比對;
(3)對閾值進行設定,構(gòu)建貝葉斯先驗概率模型;
(4)進行模型評估。
2.根據(jù)權(quán)利要求1所述的基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法,其特征在于,所述的步驟(1)具體包括以下步驟:
(1.1)對不同來源的數(shù)據(jù)庫的字段屬性進行統(tǒng)一;
(1.2)合并生成全鏈接集合。
3.根據(jù)權(quán)利要求1所述的基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法,其特征在于,所述的步驟(2)具體包括以下步驟:
(2.1)對全鏈接數(shù)據(jù)集的字符型變量進行比對;
(2.2)對全鏈接數(shù)據(jù)集的非字符型變量進行比對。
4.根據(jù)權(quán)利要求3所述的基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法,其特征在于,所述的步驟(2.1)具體包括以下步驟:
(2.1.1)將兩個字符串中包含的字符從左邊開始比較,判斷是否相同,如果是,則繼續(xù)比對下一組字符;否則,換位至下一個字符繼續(xù)比較,直至完成所有字符的比對;并計算兩個字符串的Jaro距離得分;
(2.1.2)設置字符串進行匹配計算時限定范圍的匹配窗口;
(2.1.3)計算Jaro-Winkler距離。
5.根據(jù)權(quán)利要求4所述的基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法,其特征在于,所述的步驟(2.1.1)中計算兩個字符串的Jaro距離得分,具體為:
根據(jù)以下公式計算兩個字符串的Jaro距離得分:
其中,s1和s2為字符串,m為s1和s2匹配的字符數(shù),t為換位的數(shù)目,dj為Jaro距離得分。
6.根據(jù)權(quán)利要求4所述的基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法,其特征在于,所述的步驟(2.1.3)中計算Jaro-Winkler距離,具體為:
根據(jù)以下公式計算Jaro-Winkler距離:
dw=dj+lp(1-dj);
其中,dj為Jaro距離,l為兩個字符串的共同前綴字符個數(shù),p為縮放因子常量,用來調(diào)整共同前綴對于相似度的權(quán)重,p取值不超過0.25,默認值為0.1。
7.根據(jù)權(quán)利要求4所述的基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法,其特征在于,所述的步驟(2.1)中還包括對中文字符處理的步驟,具體包括以下步驟:
(1-2.1)將中文字符串的漢字轉(zhuǎn)換成拼音;
(1-2.2)通過Jaro-Winkler算法計算拼音的相似度;
(1-2.3)設定漢字距離的權(quán)重,將加權(quán)距離作為字段的綜合距離。
8.根據(jù)權(quán)利要求3所述的基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法,其特征在于,所述的步驟(2.2)具體包括以下步驟:
(2.2.1)對所有變量的比較值進行標準化處理,并計算變量距離;
(2.2.2)將變量距離轉(zhuǎn)化為字符串;
(2.2.3)設定數(shù)值距離的權(quán)重,綜合數(shù)值距離和Jaro-Winkler距離來計算變量間的綜合相似度。
9.根據(jù)權(quán)利要求1所述的基于貝葉斯概率模型實現(xiàn)多來源數(shù)據(jù)鏈接處理的方法,其特征在于,所述的步驟(3)具體包括以下步驟:
(3.1)計算兩兩比較的所有比對字段的距離之和;
(3.2)將計算的求和值按降序排列,由上至下記錄第x%位比對上記錄的求和值,即為x%分位閾值;其中,x至少大于75;
(3.3)將大于閾值的求和值納入訓練數(shù)據(jù)集,生成訓練數(shù)據(jù)集。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海市疾病預防控制中心,未經(jīng)上海市疾病預防控制中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010036184.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種自主融合先驗知識的貝葉斯網(wǎng)絡方法
- 構(gòu)建解決組合爆炸問題的級聯(lián)貝葉斯網(wǎng)絡的方法
- 一種可重構(gòu)系統(tǒng)貝葉斯網(wǎng)構(gòu)建方法
- 一種基于貝葉斯網(wǎng)絡的網(wǎng)站缺陷預測方法及其實現(xiàn)系統(tǒng)
- 應用處理方法、裝置、存儲介質(zhì)及電子設備
- 一種遮擋目標檢測方法、電子設備、存儲介質(zhì)及系統(tǒng)
- 基于貝葉斯網(wǎng)絡推理模型的犯罪重建方法及裝置
- 利用憶阻器本征噪聲實現(xiàn)貝葉斯神經(jīng)網(wǎng)絡的方法及裝置
- 基于面向?qū)ο筘惾~斯網(wǎng)絡的中央空調(diào)系統(tǒng)故障診斷方法
- 一種基于貝葉斯神經(jīng)網(wǎng)絡權(quán)重約束的圖像分類方法





