[發明專利]確定數據庫表中字段相關度的方法和裝置在審
| 申請號: | 202011248181.1 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN113761297A | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 張蒙 | 申請(專利權)人: | 北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/906;G06F16/901 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張效榮;王志遠 |
| 地址: | 100176 北京市北京經濟技術*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 數據庫 字段 相關 方法 裝置 | ||
本發明公開了一種確定數據庫表中字段相關度的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:對于數據庫表中待分析的任意兩個字段,依據每一字段的元素判斷該字段所屬的字段類型;字段類型包括:數值型字段和分類型字段,分類型字段中的元素屬于至少兩個元素類別;當兩個字段之一為數值型字段、另一為分類型字段時,確定分類型字段中屬于同一元素類別的元素,并將該元素對應的數值型字段中的元素構成一個分析組;確定針對各分析組的組間方差和組內方差,根據組間方差和組內方差獲得兩個字段的相關度指標。該實施方式能夠針對任意數據庫表中的數值型字段與分類型字段定量計算相關度,有助于實現不同類型字段相關度的統一分析。
技術領域
本發明涉及計算機技術領域,尤其涉及一種確定數據庫表中字段相關度的方法和裝置。
背景技術
在多種場景中都存在確定數據庫表中不同字段相關度的必要。例如,在數據分析場景中,數據提供方與數據需求方往往信息不對稱,加之數據庫表本身存在一定的復雜性,因此存在數據需求不明確、數據頻繁修正等問題,此時需要分析數據庫表中不同字段之間的相關度,從而為數據需求方提供有價值的參考,顯著地提高工作效率。現有技術中,可以根據待分析的字段類型是數值型字段還是分類型字段采用皮爾遜相關系數等方法計算相關度。
在實現本發明的過程中,發明人發現現有技術至少存在以下問題:第一,當面對大量類型未知的待分析字段時,現有技術無法快速準確識別字段類型。第二,在計算數值型字段與某些分類型字段(例如性別)的相關度時,現有技術只能定性描述相關程度,這無法滿足某些應用環境下的需求。第三,現有技術中缺少統一標準來實現各種情況下數據庫表字段的相關度分析。
發明內容
有鑒于此,本發明實施例提供一種確定數據庫表中字段相關度的方法和裝置,能夠針對任意數據庫表中的數值型字段與分類型字段定量計算相關度,有助于實現不同類型字段相關度的統一分析。
為實現上述目的,根據本發明的一個方面,提供了一種確定數據庫表中字段相關度的方法。
本發明實施例的確定數據庫表中字段相關度的方法包括:對于數據庫表中待分析的任意兩個字段,依據每一字段的元素判斷該字段所屬的字段類型;其中,所述字段類型包括:數值型字段和分類型字段,分類型字段中的元素屬于至少兩個元素類別;當所述兩個字段之一為數值型字段、另一為分類型字段時,確定分類型字段中屬于同一元素類別的元素,并將該元素對應的數值型字段中的元素構成一個分析組;確定針對各分析組的組間方差和組內方差,根據所述組間方差和所述組內方差獲得所述兩個字段的相關度指標。
可選地,所述依據每一字段的元素判斷該字段所屬的字段類型,包括:對于待分析的任一字段,判斷該字段中符合預設的第一正則表達式的元素占比是否不小于第一閾值:若是,將該字段確定為數值型字段;其中,第一正則表達式用于匹配浮點數;如果該字段中符合第一正則表達式的元素占比小于第一閾值,則判斷該字段中去重后的元素數量是否大于1并且不大于第二閾值:若是,將該字段確定為分類型字段;其中,第二閾值與該字段中的元素總數相關并且小于該元素總數。
可選地,所述依據每一字段的元素判斷該字段所屬的字段類型,包括:對于待分析的任一字段,判斷該字段中去重后的元素數量是否大于1并且不大于第二閾值:若是,將該字段確定為分類型字段;其中,第二閾值與該字段中的元素總數相關并且小于該元素總數;如果該字段中去重后的元素數量為1或者大于第二閾值,則判斷該字段中符合預設的第二正則表達式的元素占比是否不小于第三閾值:若是,將該字段確定為數值型字段;其中,第二正則表達式用于匹配浮點數和整數。
可選地,所述根據所述組間方差和所述組內方差獲得所述兩個字段的相關度指標,包括:將所述組間方差除以所述組內方差得到所述兩個字段的相關度初始值,將所述相關度初始值的自然對數確定為相關度中間值;將所述相關度中間值變換到從零到一的數值區間,形成所述兩個字段的相關度指標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司,未經北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011248181.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:管子割刀
- 下一篇:一種基于快遞柜的物品展示方法和裝置





