[發(fā)明專利]數(shù)據(jù)表相似度確定方法及裝置有效
| 申請?zhí)枺?/td> | 202011345577.8 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112597149B | 公開(公告)日: | 2022-11-22 |
| 發(fā)明(設(shè)計)人: | 張志強 | 申請(專利權(quán))人: | 貝殼技術(shù)有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/28 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 李文清 |
| 地址: | 300457 天津市濱海新區(qū)經(jīng)濟技術(shù)開發(fā)*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)表 相似 確定 方法 裝置 | ||
本發(fā)明提供一種數(shù)據(jù)表相似度確定方法及裝置,在數(shù)據(jù)倉庫的任意兩個數(shù)據(jù)表中存在具有關(guān)聯(lián)關(guān)系的字段時確定出任意兩個數(shù)據(jù)表中具有關(guān)聯(lián)關(guān)系的至少一對字段之間的字段相似度;然后根據(jù)確定出的字段相似度以及所述任意兩個數(shù)據(jù)表中的字段數(shù)量確定任意兩個數(shù)據(jù)表的表相似度。整個過程并不需要人為參與,降低了對工作人員的能力要求,同時提高了數(shù)據(jù)表的表相似度的確定效率以及確定結(jié)果的準確性。而且,可以通過數(shù)據(jù)倉庫中不同數(shù)據(jù)表的表相似度,對整個數(shù)據(jù)倉庫的冗余程度進行評估,為數(shù)據(jù)倉庫的建設(shè)和維護提供理論基礎(chǔ)。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)表相似度確定方法及裝置。
背景技術(shù)
數(shù)據(jù)表,是數(shù)據(jù)倉庫中用來存儲數(shù)據(jù)的對象,數(shù)據(jù)在數(shù)據(jù)表中按行與列的格式組織排列,數(shù)據(jù)表中的每一列都設(shè)計為存儲某種類型的信息,例如,姓名、日期等。
隨著業(yè)務(wù)的快速發(fā)展,數(shù)據(jù)倉庫中所存儲的數(shù)據(jù)也越來越多,因此存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)表也越來越多。各用戶在構(gòu)建自己的數(shù)據(jù)倉庫的過程中,會根據(jù)業(yè)務(wù)需要創(chuàng)建大量的數(shù)據(jù)表,而且不同數(shù)據(jù)表中的字段之間會存在一定的調(diào)用關(guān)系和關(guān)聯(lián)關(guān)系,使得不同數(shù)據(jù)表中的數(shù)據(jù)有一定的重復和相似性,可能會存在數(shù)據(jù)重復加工的問題,導致整個數(shù)據(jù)倉庫的冗余數(shù)據(jù)增加,不利于數(shù)據(jù)倉庫的健康維護。
目前,現(xiàn)有技術(shù)中對于數(shù)據(jù)倉庫中不同數(shù)據(jù)表相似度的確定還處于空白階段,需要依賴人工和經(jīng)驗來判斷兩個數(shù)據(jù)表是否相似以及數(shù)據(jù)倉庫的數(shù)據(jù)冗余情況。這種方式效率較低,無法快速對數(shù)據(jù)倉庫中不同數(shù)據(jù)表的相似度進行確定。而且,由于依賴人工和經(jīng)驗,將會導致確定結(jié)果的準確性降低。
發(fā)明內(nèi)容
本發(fā)明提供一種數(shù)據(jù)表相似度確定方法及裝置,用以解決現(xiàn)有技術(shù)中存在的缺陷。
本發(fā)明提供一種數(shù)據(jù)表相似度確定方法,包括:
判斷數(shù)據(jù)倉庫中任意兩個數(shù)據(jù)表中是否存在具有關(guān)聯(lián)關(guān)系的字段;
若所述任意兩個數(shù)據(jù)表中存在具有關(guān)聯(lián)關(guān)系的字段,則確定所述任意兩個數(shù)據(jù)表中具有關(guān)聯(lián)關(guān)系的至少一對字段之間的字段相似度;
基于所述字段相似度以及所述任意兩個數(shù)據(jù)表中的字段數(shù)量,確定所述任意兩個數(shù)據(jù)表的表相似度。
根據(jù)本發(fā)明提供一種數(shù)據(jù)表相似度確定方法,所述基于所述字段相似度以及所述任意兩個數(shù)據(jù)表中的字段數(shù)量,確定所述任意兩個數(shù)據(jù)表的表相似度,具體包括:
對所述任意兩個數(shù)據(jù)表中具有關(guān)聯(lián)關(guān)系的至少一對字段之間的字段相似度進行求和,得到第一求和結(jié)果;
將所述第一求和結(jié)果與所述任意兩個數(shù)據(jù)表中的字段數(shù)量的比值作為所述任意兩個數(shù)據(jù)表的表相似度。
根據(jù)本發(fā)明提供一種數(shù)據(jù)表相似度確定方法,還包括:
若所述任意兩個數(shù)據(jù)表中不存在具有關(guān)聯(lián)關(guān)系的字段,則確定所述數(shù)據(jù)倉庫中與所述任意兩個數(shù)據(jù)表對應(yīng)的至少一個關(guān)聯(lián)數(shù)據(jù)表,所述關(guān)聯(lián)數(shù)據(jù)表中存在與所述任意兩個數(shù)據(jù)表中的字段均具有關(guān)聯(lián)關(guān)系的至少一個關(guān)聯(lián)字段;
基于任一關(guān)聯(lián)數(shù)據(jù)表中的任一關(guān)聯(lián)字段與所述任意兩個數(shù)據(jù)表中對應(yīng)的字段之間的字段相似度,以及所述任一關(guān)聯(lián)數(shù)據(jù)表中的關(guān)聯(lián)字段的數(shù)量,確定所述任意兩個數(shù)據(jù)表的表相似度。
根據(jù)本發(fā)明提供一種數(shù)據(jù)表相似度確定方法,所述基于任一關(guān)聯(lián)數(shù)據(jù)表中的任一關(guān)聯(lián)字段與所述任意兩個數(shù)據(jù)表中對應(yīng)的字段之間的字段相似度,以及所述任一關(guān)聯(lián)數(shù)據(jù)表中的關(guān)聯(lián)字段的數(shù)量,確定所述任意兩個數(shù)據(jù)表的表相似度,具體包括:
基于所述任一關(guān)聯(lián)數(shù)據(jù)表中的任一關(guān)聯(lián)字段與所述任意兩個數(shù)據(jù)表中對應(yīng)的字段之間的字段相似度,以及所述任一關(guān)聯(lián)數(shù)據(jù)表中的關(guān)聯(lián)字段的數(shù)量,確定所述任一關(guān)聯(lián)數(shù)據(jù)表對應(yīng)的表相似度項;
將所述至少一個關(guān)聯(lián)數(shù)據(jù)表對應(yīng)的表相似度項之和作為所述任意兩個數(shù)據(jù)表的表相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于貝殼技術(shù)有限公司,未經(jīng)貝殼技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011345577.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)表儲存、修改、查詢和統(tǒng)計方法
- 一種基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)表分類系統(tǒng)與方法
- 數(shù)據(jù)表儲存、修改、查詢和統(tǒng)計方法
- 一種數(shù)據(jù)識別方法及裝置
- 一種數(shù)據(jù)表切換方法及裝置
- 數(shù)據(jù)表的校驗方法及裝置、電子設(shè)備、存儲介質(zhì)
- 對數(shù)據(jù)集中的數(shù)據(jù)表進行抽樣和校驗的方法及裝置
- 主機中數(shù)據(jù)關(guān)聯(lián)訪問的方法和裝置
- 數(shù)據(jù)管理方法、裝置及服務(wù)器
- 數(shù)據(jù)處理方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)





