[發(fā)明專利]相似表的識別方法及裝置在審
| 申請?zhí)枺?/td> | 201811446237.7 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109325035A | 公開(公告)日: | 2019-02-12 |
| 發(fā)明(設(shè)計)人: | 陳志遠(yuǎn) | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/30 |
| 代理公司: | 北京國昊天誠知識產(chǎn)權(quán)代理有限公司 11315 | 代理人: | 許振新;朱文杰 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 表信息 文本 相似度 獲取數(shù)據(jù) 數(shù)據(jù)倉庫 字段 倉庫 轉(zhuǎn)換 | ||
本說明書實施例提供了一種相似表的識別方法及裝置,該方法包括:獲取數(shù)據(jù)倉庫中多個待識別表所對應(yīng)的表信息;其中,該表信息包括待識別表中字段名稱;分別將每個待識別表所對應(yīng)的表信息轉(zhuǎn)換為對應(yīng)的一個文本,以得到多個文本;確定多個文本之間的相似度值;基于相似度值識別數(shù)據(jù)倉庫中相似的表。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種相似表的識別方法及裝置。
背景技術(shù)
表,是數(shù)據(jù)倉庫中用來存儲數(shù)據(jù)的對象,數(shù)據(jù)在表中按行與列的格式組織排列,表中的每一列都設(shè)計為存儲某種類型的信息,例如,姓名、日期等。當(dāng)前一些主流數(shù)據(jù)庫,如mysql、oracle、hive等都是采用表的形式存儲數(shù)據(jù)。
隨著業(yè)務(wù)的快速發(fā)展,數(shù)據(jù)倉庫中所存儲的數(shù)據(jù)也越來越多,因此,存儲在數(shù)據(jù)倉庫中的表也就越來越多。這樣可能會導(dǎo)致數(shù)據(jù)倉庫中的表混亂,使得數(shù)據(jù)使用方不容易找到需要的數(shù)據(jù)的問題出現(xiàn)。并且,由于研發(fā)人員各自開發(fā),可能會存在數(shù)據(jù)重復(fù)加工,產(chǎn)生大量冗余的表的問題。
因此,亟需提出一種技術(shù)方案,以實現(xiàn)可以將相似的表識別出來,從而實現(xiàn)對數(shù)據(jù)倉庫中的表進行整理歸類以及減少冗余表。
發(fā)明內(nèi)容
本說明書實施例的目的是提供一種相似表的識別方法及裝置,根據(jù)數(shù)據(jù)倉庫中每個待識別表所對應(yīng)的表信息,將數(shù)據(jù)倉庫中的表轉(zhuǎn)換成對應(yīng)的文本,通過相似文本的識別,實現(xiàn)相似表的識別;本說明書實施例實現(xiàn)了對相似表的識別,并且為自動化識別,降低了人力成本,并且識別效率高。
為解決上述技術(shù)問題,本說明書實施例是這樣實現(xiàn)的:
本說明書實施例提供了一種相似表的識別方法,包括:
獲取數(shù)據(jù)倉庫中多個待識別表所對應(yīng)的表信息;其中,所述表信息包括所述待識別表中字段名稱;
分別將每個所述待識別表所對應(yīng)的表信息轉(zhuǎn)換為對應(yīng)的一個文本,以得到多個文本;
確定所述多個文本之間的相似度值;
基于所述相似度值識別所述數(shù)據(jù)倉庫中相似的表。
本說明書實施例還提供了一種相似表的識別裝置,包括:
獲取模塊,用于獲取數(shù)據(jù)倉庫中多個待識別表所對應(yīng)的表信息;其中,所述表信息包括所述待識別表中字段名稱;
轉(zhuǎn)換模塊,用于分別將每個所述待識別表所對應(yīng)的表信息轉(zhuǎn)換為對應(yīng)的一個文本,以得到多個文本;
確定模塊,用于確定所述多個文本之間的相似度值;
識別模塊,用于基于所述相似度值識別所述數(shù)據(jù)倉庫中相似的表。
本說明書實施例還提供了一種相似表的識別設(shè)備,包括:
處理器;以及
被安排成存儲計算機可執(zhí)行指令的存儲器,所述可執(zhí)行指令在被執(zhí)行時使所述處理器:
獲取數(shù)據(jù)倉庫中多個待識別表所對應(yīng)的表信息;其中,所述表信息包括所述待識別表中字段名稱;
分別將每個所述待識別表所對應(yīng)的表信息轉(zhuǎn)換為對應(yīng)的一個文本,以得到多個文本;
確定所述多個文本之間的相似度值;
基于所述相似度值識別所述數(shù)據(jù)倉庫中相似的表。
本說明書實施例還提供了一種存儲介質(zhì),用于存儲計算機可執(zhí)行指令,所述可執(zhí)行指令在被執(zhí)行時實現(xiàn)以下流程:
獲取數(shù)據(jù)倉庫中多個待識別表所對應(yīng)的表信息;其中,所述表信息包括所述待識別表中字段名稱;
分別將每個所述待識別表所對應(yīng)的表信息轉(zhuǎn)換為對應(yīng)的一個文本,以得到多個文本;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811446237.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)獲取裝置、數(shù)據(jù)獲取方法以及程序
- 數(shù)據(jù)獲取設(shè)備、數(shù)據(jù)獲取系統(tǒng)和獲取數(shù)據(jù)的方法
- 數(shù)據(jù)獲取方法和數(shù)據(jù)獲取裝置
- 數(shù)據(jù)獲取裝置和數(shù)據(jù)獲取方法
- 數(shù)據(jù)獲取方法、數(shù)據(jù)獲取裝置和終端
- 數(shù)據(jù)獲取方法、數(shù)據(jù)獲取裝置和終端
- 數(shù)據(jù)獲取方法與數(shù)據(jù)獲取系統(tǒng)
- 數(shù)據(jù)獲取方法及數(shù)據(jù)獲取裝置
- 數(shù)據(jù)獲取方法及數(shù)據(jù)獲取裝置
- 數(shù)據(jù)獲取裝置及數(shù)據(jù)獲取方法





