[發明專利]一種基于深度學習的數據自動關聯匹配的構建方法有效
| 申請號: | 201810567835.3 | 申請日: | 2018-06-04 |
| 公開(公告)號: | CN108763565B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 王濟平;黎剛;周健雄;湯克云 | 申請(專利權)人: | 廣東京信軟件科技有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06N5/02 |
| 代理公司: | 中山市銘洋專利商標事務所(普通合伙) 44286 | 代理人: | 鄒常友 |
| 地址: | 528400 廣東省中山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 數據 自動 關聯 匹配 構建 方法 | ||
本發明提出一種基于深度學習的數據自動關聯匹配的構建方法,模擬人工在多域的廣泛數據間建立匹配關聯的過程,令匹配能力和準確度可隨著深度學習的優化不斷提升,具體是,建立特征觀測值對數據實體進行抽象,抽像過程包括提取特征、自動執行、自動學習進化,其特征在于,包括如下步驟:將多個人為關聯規則作為特征觀測值導入至深度學習模型,并設定數據的可用范圍與成功關聯系的判斷標準;以多個核心對象表為基礎,通過核心對象表來索引其它表來建立強關聯或軟關聯,繼而輸出成功關系的結果集,所述結果集中包含有可關聯表、關聯規則和關聯匹配度,該結果集作為一個任務在相應平臺執行或嵌入到挖掘分析任務中作為數據處理步驟執行。
技術領域
本發明涉及一種基于深度學習的數據自動關聯匹配的構建方法。
背景技術
數據關聯匹配是針對于不同來源、不同對象和不同格式的多源數據一種重要的處理過程,不同來源是因為數據從不同的業務系統產生,不同對象是因為不同的數據庫和數據表存儲的數據實體對象不一樣(例如某些是人相關的,某些是企業相關的),不同格式是因為系統和業務管理的實際數據需求不一樣,在大數據時代,很多場景下的數據都存在著上述特性,這樣對進行組合的挖掘分析帶來了很大障礙,數據的挖掘分析依賴于數據間的可關聯性,無論是弱關聯還是強關聯,所以在對大規模具備上述特性的數據進行挖掘分析時,往往花費大量的人力物力在數據關聯匹配的處理上。
在多年對城市級政府數據進行運維服務的過程中,我們發現各種部門間的數據差異和不匹配問題十分嚴重,而在應用數據創造更大價值(包括構建應用和挖掘分析)上對于多領域數據的融合使用是必不可少的,所以在初期我們主要通過人工建立某些關聯規則然后通過數據庫操作實現,具體的步驟分為三步:一是需要先閱讀和理解數據發現可匹配數據,二是需要在數以千計的數據表和數十萬計的字段間逐個查看建立匹配規則,三是對匹配的結果進行校驗時需要進行數據抽檢,整個處理匹配過程耗時耗力,而且容易出錯和出現遺漏,導致工作經常需要反復。
深度學習是機器學習中一種基于對數據進行表征學習的方法。深度學習通過建立特征觀測值對實體進行抽象,不斷完善學習任務,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據。深度學習的好處是用非監督式或半監督式的特征學習和分層特征提取高效算法來替代手工獲取特征。
發明內容
基于上述背景,本發明提出一種基于深度學習的數據自動關聯匹配的構建方法,利用深度學習自動提取特征、自動執行、自動學習進化的特性,模擬人工在多域的廣泛數據間建立匹配關聯的過程,令匹配能力和準確度可隨著深度學習的優化不斷提升,其具體技術內容如下:
一種基于深度學習的數據自動關聯匹配的構建方法,建立特征觀測值對數據實體進行抽象,抽像過程包括提取特征、自動執行、自動學習進化;其包括如下步驟:將多個人為關聯規則作為特征觀測值導入至深度學習模型,并設定數據的可用范圍與成功關聯系的判斷標準;以多個核心對象表為基礎,通過核心對象表來索引其它表來建立強關聯或軟關聯,繼而輸出成功關系的結果集,所述結果集中包含有可關聯表、關聯規則和關聯匹配度,該結果集作為一個任務在相應平臺執行或嵌入到挖掘分析任務中作為數據處理步驟執行。所述抽像過程基于非監督式或半監督式的特征學習和分層特征提取高效算法。對數據實體的特征進行提取以形成觀測值,然后通過觀測值來建立學習任務和模型。通過已經整理形成的特征觀測值,然后進行深度學習建立新的特征觀測值進而發掘更多可關聯數據。創建人為干涉和輔助的工具,用于人工創建強關聯場景下的顯性關聯規則鏈和弱關聯場景下的模糊規則集,從而為深度學習提供更多可用特征,方便其參考進行學習,進而建立起更多規則鏈和規則集;所述顯性關聯規則鏈是利用歷史經驗整理形成的較為明確的多域數據間的關聯邏輯,通過規則鏈上從上至下的并行或串行規則實現關聯關系建立,并最終輸出關聯后數據結果;所述模糊規則集則是在多域數據間一系列可能建立起匹配關系的關聯邏輯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東京信軟件科技有限公司,未經廣東京信軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810567835.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





