[發(fā)明專利]數(shù)據(jù)處理方法及裝置有效
| 申請?zhí)枺?/td> | 201710386802.4 | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN108932268B | 公開(公告)日: | 2020-09-04 |
| 發(fā)明(設(shè)計(jì))人: | 劉洋;車文彬;張旭 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 羅振安 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)處理 方法 裝置 | ||
本申請公開了一種數(shù)據(jù)處理方法及裝置,屬于大數(shù)據(jù)技術(shù)領(lǐng)域。所述方法包括:分別獲取屬于樣本數(shù)據(jù)表的樣本列字段與屬于至少一個(gè)基準(zhǔn)數(shù)據(jù)表的n個(gè)基準(zhǔn)列字段中的每個(gè)基準(zhǔn)列字段的相似度集合;根據(jù)獲取到的n個(gè)相似度集合以及每個(gè)相似度的預(yù)設(shè)權(quán)重,確定樣本列字段對應(yīng)的初始基準(zhǔn)列字段;獲取用于指示:樣本列字段與初始基準(zhǔn)列字段的對應(yīng)關(guān)系的準(zhǔn)確度的準(zhǔn)確度標(biāo)簽;根據(jù)準(zhǔn)確度標(biāo)簽和獲取到的n個(gè)相似度集合,確定每個(gè)相似度的目標(biāo)權(quán)重;根據(jù)獲取到的n個(gè)相似度集合以及每個(gè)相似度的目標(biāo)權(quán)重,確定樣本列字段對應(yīng)的目標(biāo)基準(zhǔn)列字段。本申請解決了數(shù)據(jù)處理的效率較低的問題,提高了數(shù)據(jù)處理的效率,本申請用于數(shù)據(jù)的處理。
技術(shù)領(lǐng)域
本申請涉及大數(shù)據(jù)技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)處理方法及裝置。
背景技術(shù)
隨著大數(shù)據(jù)技術(shù)的發(fā)展,用戶能夠基于大數(shù)據(jù)技術(shù)對多個(gè)樣本數(shù)據(jù)表進(jìn)行分析,以制定相應(yīng)的策略。但是,由于多個(gè)樣本數(shù)據(jù)表的來源不同,使得多個(gè)樣本數(shù)據(jù)表中相同位置的樣本列字段的數(shù)據(jù)的類型不同,因此為了便于用戶分析,用戶通常需要通過數(shù)據(jù)處理裝置確定每個(gè)樣本列字段在基準(zhǔn)數(shù)據(jù)表中對應(yīng)的基準(zhǔn)列字段,進(jìn)而從多個(gè)樣本數(shù)據(jù)表中獲取同一基準(zhǔn)列字段對應(yīng)的樣本列字段中的數(shù)據(jù)。
相關(guān)技術(shù)中,數(shù)據(jù)處理裝置在確定樣本列字段對應(yīng)的基準(zhǔn)列字段時(shí),采用四種特征提取方法分別提?。簶颖玖凶侄蔚乃膫€(gè)第一特征集,以及基準(zhǔn)數(shù)據(jù)表中每個(gè)基準(zhǔn)列字段的四個(gè)第二特征集。然后,數(shù)據(jù)處理裝置需要計(jì)算采用同一種特征提取算法提取得到的第一特征集與每個(gè)第二特征集的相似度,并得到樣本列字段與每個(gè)基準(zhǔn)列字段的相似度集合。最后,數(shù)據(jù)處理裝置需要根據(jù)每個(gè)相似度的預(yù)設(shè)權(quán)重,確定樣本列字段與每個(gè)基準(zhǔn)列字段的融合相似度,并將與樣本列字段的融合相似度最高的基準(zhǔn)列字段確定為樣本列字段對應(yīng)的基準(zhǔn)列字段。示例的,假設(shè)樣本列字段的四個(gè)第一特征集分別為P1、P2、P3和P4,某一基準(zhǔn)列字段的四個(gè)第二特征集分別為Q1、Q2、Q3和Q4,采用第一種特征提取方法得到的P1與Q1的相似度為Z1,采用第二種特征提取方法得到的P2與Q2的相似度為Z2,采用第三種特征提取方法得到的P3與Q3的相似度為Z3,采用第四種特征提取方法得到的P4與Q4的相似度為Z4,則樣本列字段與該某一基準(zhǔn)列字段的相似度集合為{Z1,Z2,Z3,Z4}。若A1、A2、A3和A4分別為相似度Z1、相似度Z2、相似度Z3和相似度Z4的預(yù)設(shè)權(quán)重,則數(shù)據(jù)處理裝置將Z1*A1+Z2*A2+Z3*A3+Z4*A4的結(jié)果作為樣本列字段與該某一基準(zhǔn)列字段的融合相似度。進(jìn)一步的,在數(shù)據(jù)處理裝置得到樣本列字段對應(yīng)的基準(zhǔn)列字段后,用戶需要判斷樣本列字段對應(yīng)的基準(zhǔn)列字段是否準(zhǔn)確。如果用戶認(rèn)為樣本列字段對應(yīng)的基準(zhǔn)列字段不準(zhǔn)確,則用戶需要根據(jù)經(jīng)驗(yàn)對數(shù)據(jù)處理裝置中相似度的預(yù)設(shè)權(quán)重(A1、A2、A3和A4)進(jìn)行調(diào)整,并控制數(shù)據(jù)處理裝置根據(jù)調(diào)整后的權(quán)重再次確定樣本列字段與每個(gè)基準(zhǔn)列字段的融合相似度,以及再次確定樣本列字段對應(yīng)的基準(zhǔn)列字段,直至用戶認(rèn)為數(shù)據(jù)處理裝置確定的樣本列字段對應(yīng)的基準(zhǔn)列字段是準(zhǔn)確的。
由于相關(guān)技術(shù)中,在用戶認(rèn)為樣本列字段對應(yīng)的基準(zhǔn)列字段不準(zhǔn)確時(shí),用戶需要根據(jù)經(jīng)驗(yàn)對數(shù)據(jù)處理裝置中相似度的預(yù)設(shè)權(quán)重進(jìn)行調(diào)整,因此,數(shù)據(jù)處理的步驟較繁瑣,數(shù)據(jù)處理的效率較低。
發(fā)明內(nèi)容
為了解決數(shù)據(jù)處理的效率較低的問題,本申請?zhí)峁┝艘环N數(shù)據(jù)處理方法及裝置。所述技術(shù)方案如下:
第一方面,提供了一種數(shù)據(jù)處理方法,所述方法包括:分別獲取屬于樣本數(shù)據(jù)表的樣本列字段與屬于至少一個(gè)基準(zhǔn)數(shù)據(jù)表的n個(gè)基準(zhǔn)列字段中的每個(gè)基準(zhǔn)列字段的相似度集合,第i個(gè)所述相似度集合包括:所述樣本列字段的特征集與所述n個(gè)基準(zhǔn)列字段中的第i個(gè)基準(zhǔn)列字段的特征集的相似度,n≥i≥1;根據(jù)獲取到的n個(gè)相似度集合以及每個(gè)所述相似度的預(yù)設(shè)權(quán)重,確定所述樣本列字段在所述n個(gè)基準(zhǔn)列字段中對應(yīng)的初始基準(zhǔn)列字段;獲取準(zhǔn)確度標(biāo)簽,所述準(zhǔn)確度標(biāo)簽用于指示所述樣本列字段與所述初始基準(zhǔn)列字段的對應(yīng)關(guān)系的準(zhǔn)確度;根據(jù)所述準(zhǔn)確度標(biāo)簽和獲取到的n個(gè)相似度集合,確定每個(gè)所述相似度的目標(biāo)權(quán)重;根據(jù)獲取到的n個(gè)相似度集合以及每個(gè)所述相似度的目標(biāo)權(quán)重,確定所述樣本列字段在所述n個(gè)基準(zhǔn)列字段中對應(yīng)的目標(biāo)基準(zhǔn)列字段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710386802.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





