[發明專利]基于貝葉斯概率模型實現多來源數據鏈接處理的方法在審
| 申請號: | 202010036184.2 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111275081A | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 虞慧婷;王春芳;臧嘉捷;崔欣;陳國武 | 申請(專利權)人: | 上海市疾病預防控制中心 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/2458 |
| 代理公司: | 上海智信專利代理有限公司 31002 | 代理人: | 王潔;鄭暄 |
| 地址: | 200336 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 貝葉斯 概率 模型 實現 來源 數據 鏈接 處理 方法 | ||
本發明涉及一種基于貝葉斯概率模型實現多來源數據鏈接處理的方法,包括以下步驟:對源數據的數據進行預處理,分析可進行比對的字段;對全鏈接數據集的字符型變量和非字符型變量進行比對;對閾值進行設定,構建貝葉斯先驗概率模型;進行模型評估。本發明的基于貝葉斯概率模型實現多來源數據鏈接處理的方法,適用于不同來源、不同類型數據庫的鏈接,可用于醫藥、商業管理、官方統計等領域中。本發明能識別重復記錄,提高數據質量,可便捷識別重復記錄,可極大地降低人工核對成本;能提高數據整合效率,將極大地提高數據鏈接效率;能擴充數據維度,開展跨領域研究。因此能夠擴充數據維度,對于推進我國跨領域研究的質量和效率,會有著極大的幫助作用。
技術領域
本發明涉及數據挖掘領域,尤其涉及貝葉斯概率模型領域,具體是指一種基于貝葉斯概率模型實現多來源數據鏈接處理的方法。
背景技術
在信息技術高度發展的今天,大數據已經融入人們的生活,數據必定成為資源,大數據的研究、分析和應用已是必然趨勢。但是由于信息的來源渠道多/信息分布廣泛,一個研究問題所需的信息往往駐留在多個數據庫中,研究人員必須在研究繼續之前找到連接數據庫的方法。
記錄鏈接(Record Linkage)是一種應用統計學原理,識別不同數據庫的相關記錄是否來自同一個體,以實現數據庫鏈接的一項新興技術。數據完整時,可用唯一性主鍵進行精確鏈接。但真實數據并不完美,主鍵缺失精確鏈接無法實現。概率鏈接(ProbabilisticLinkage)通過對兩條記錄的多個字段分別進行匹配并賦予權重,得到他們來自同一個體的概率,從而進行匹配判定。
普通概率鏈接以樣本信息為主,效率不高。本發明采用貝葉斯概率鏈接模型,依據匹配的“敏感性”和“特異性”(即比對變量相同時記錄是否匹配的概率)構建權重似然函數,充分利用精確匹配獲得的先驗信息,通過貝葉斯算法改善似然函數的參數估計,以提高匹配效率。在信息化高速發展的今天,數據來源越來越廣,信息資源越來越豐富,基于貝葉斯的概率鏈接方法能夠有效利用已有的鏈接經驗,改善對缺失數據的處理能力,提高數據整合效率,大幅提高數據利用效率。
發明內容
本發明的目的是克服了上述現有技術的缺點,提供了一種滿足效果好、誤差低、適用范圍廣泛的基于貝葉斯概率模型實現多來源數據鏈接處理的方法。
為了實現上述目的,本發明的基于貝葉斯概率模型實現多來源數據鏈接處理的方法如下:
該基于貝葉斯概率模型實現多來源數據鏈接處理的方法,其主要特點是,所述的方法包括以下步驟:
(1)對源數據的數據進行預處理,分析可進行比對的字段;
(2)對全鏈接數據集的字符型變量和非字符型變量進行比對;
(3)對閾值進行設定,構建貝葉斯先驗概率模型;
(4)進行模型評估。
較佳地,所述的步驟(1)具體包括以下步驟:
(1.1)對不同來源的數據庫的字段屬性進行統一;
(1.2)合并生成全鏈接集合。
較佳地,所述的步驟(2)具體包括以下步驟:
(2.1)對全鏈接數據集的字符型變量進行比對;
(2.2)對全鏈接數據集的非字符型變量進行比對。
較佳地,所述的步驟(2.1)具體包括以下步驟:
(2.1.1)將兩個字符串中包含的字符從左邊開始比較,判斷是否相同,如果是,則繼續比對下一組字符;否則,換位至下一個字符繼續比較,直至完成所有字符的比對;并計算兩個字符串的Jaro距離得分;
(2.1.2)設置字符串進行匹配計算時限定范圍的匹配窗口;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海市疾病預防控制中心,未經上海市疾病預防控制中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010036184.2/2.html,轉載請聲明來源鉆瓜專利網。





