[發(fā)明專利]數(shù)據(jù)融合方法、裝置、計算機設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201811593391.7 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109783490B | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計)人: | 賈濤;林佳龍 | 申請(專利權(quán))人: | 杭州數(shù)夢工場科技有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/25 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 310024 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 融合 方法 裝置 計算機 設(shè)備 存儲 介質(zhì) | ||
1.一種數(shù)據(jù)融合方法,應(yīng)用于對多個源數(shù)據(jù)庫中的數(shù)據(jù)進行融合,其特征在于,包括:
確定待獲取的目標(biāo)數(shù)據(jù)對應(yīng)的目標(biāo)字段信息及每個源數(shù)據(jù)庫中的每個候選數(shù)據(jù)對應(yīng)的源字段信息,其中,所述字段信息中包括以下多項信息中的至少兩種:字段名稱、字段說明、備注、簡拼、英文縮寫;
根據(jù)各候選數(shù)據(jù)對應(yīng)的源字段信息中每項信息的取值差異,確定每個源字段信息中每項信息的權(quán)重;
根據(jù)所述每個源數(shù)據(jù)庫所屬的行業(yè),確定所述每個源字段信息與所述目標(biāo)字段信息中每項信息間的匹配度,其中,分別采集各源數(shù)據(jù)庫所屬行業(yè)對應(yīng)的行業(yè)詞匯,對每個源數(shù)據(jù)庫所屬的行業(yè)詞匯進行機器學(xué)習(xí),以確定每個行業(yè)對應(yīng)的向量詞庫,其中所述向量詞庫中包括每個行業(yè)詞匯與其對應(yīng)的詞向量的映射關(guān)系;
根據(jù)所述每項信息間的匹配度及所述每項信息的權(quán)重,確定所述每個源字段信息與所述目標(biāo)字段信息的匹配度;
根據(jù)所述每個候選數(shù)據(jù)對應(yīng)的源字段信息與所述目標(biāo)字段信息的匹配度,確定所述每個候選數(shù)據(jù)為目標(biāo)數(shù)據(jù)的概率;
根據(jù)所述每個候選數(shù)據(jù)為目標(biāo)數(shù)據(jù)的概率,將所述每個源數(shù)據(jù)庫中的目標(biāo)數(shù)據(jù)進行融合處理。
2.如權(quán)利要求1所述的方法,其特征在于,所述確定所述每個候選數(shù)據(jù)對應(yīng)的源字段信息與所述目標(biāo)字段信息的匹配度,包括:
根據(jù)每個源數(shù)據(jù)庫所屬的行業(yè),確定每個源字段信息對應(yīng)的第一詞向量;
確定所述每個源字段信息對應(yīng)的第一詞向量與所述目標(biāo)字段信息對應(yīng)的第二詞向量的匹配度。
3.如權(quán)利要求1所述的方法,其特征在于,所述確定每個源字段信息中每項信息的權(quán)重,包括:
若源數(shù)據(jù)庫中的第一候選數(shù)據(jù)對應(yīng)的源字段信息中包括第一項信息及第二項信息、且第二候選數(shù)據(jù)對應(yīng)的源字段信息中包括第一項信息但未包括第二項信息,則確定所述第一項信息的權(quán)重值大于所述第二項信息的權(quán)重值;和/或,
若源數(shù)據(jù)庫中的各個候選數(shù)據(jù)對應(yīng)的源字段信息的第一項信息的取值相同的比例小于第二項信息取值相同的比例,則確定所述第一項信息的權(quán)重大于所述第二項信息的權(quán)重。
4.一種數(shù)據(jù)融合裝置,應(yīng)用于對多個源數(shù)據(jù)庫中的數(shù)據(jù)進行融合,其特征在于,包括:
第一確定模塊,用于確定待獲取的目標(biāo)數(shù)據(jù)對應(yīng)的目標(biāo)字段信息及每個源數(shù)據(jù)庫中的每個候選數(shù)據(jù)對應(yīng)的源字段信息,其中,所述字段信息中包括以下多項信息中的至少兩種:字段名稱、字段說明、備注、簡拼、英文縮寫;
第二確定模塊,用于根據(jù)所述每個源數(shù)據(jù)庫所屬的行業(yè),確定所述每個候選數(shù)據(jù)對應(yīng)的源字段信息與所述目標(biāo)字段信息的匹配度,其中,分別采集各源數(shù)據(jù)庫所屬行業(yè)對應(yīng)的行業(yè)詞匯,對每個源數(shù)據(jù)庫所屬的行業(yè)詞匯進行機器學(xué)習(xí),以確定每個行業(yè)對應(yīng)的向量詞庫,其中所述向量詞庫中包括每個行業(yè)詞匯與其對應(yīng)的詞向量的映射關(guān)系;其中,所述第二確定模塊,還用于:根據(jù)各候選數(shù)據(jù)對應(yīng)的源字段信息中每項信息的取值差異,確定每個源字段信息中每項信息的權(quán)重;
確定所述每個源字段信息與所述目標(biāo)字段信息中每項信息間的匹配度;
根據(jù)所述每項信息間的匹配度及所述每項信息的權(quán)重,確定所述每個源字段信息與所述目標(biāo)字段信息的匹配度;
第三確定模塊,用于根據(jù)所述每個候選數(shù)據(jù)對應(yīng)的源字段信息與所述目標(biāo)字段信息的匹配度,確定所述每個候選數(shù)據(jù)為目標(biāo)數(shù)據(jù)的概率;
融合模塊,用于根據(jù)所述每個候選數(shù)據(jù)為目標(biāo)數(shù)據(jù)的概率,將所述每個源數(shù)據(jù)庫中的目標(biāo)數(shù)據(jù)進行融合處理。
5.如權(quán)利要求4所述的裝置,其特征在于,所述第二確定模塊,包括:
第一確定單元,用于根據(jù)每個源數(shù)據(jù)庫所屬的行業(yè),確定每個源字段信息對應(yīng)的第一詞向量;
第二確定單元,用于確定所述每個源字段信息對應(yīng)的第一詞向量與所述目標(biāo)字段信息對應(yīng)的第二詞向量的匹配度。
6.一種計算機設(shè)備,其特征在于,包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-3中任一所述的數(shù)據(jù)融合方法。
7.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-3中任一所述的數(shù)據(jù)融合方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州數(shù)夢工場科技有限公司,未經(jīng)杭州數(shù)夢工場科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811593391.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





