[發明專利]推測數據庫字段含義的方法在審

申請號：	202110239741.5	申請日：	2021-03-04
公開（公告）號：	CN113032360A	公開（公告）日：	2021-06-25
發明（設計）人：	唐弋鈞;聶敏;楊磊;李春	申請（專利權）人：	四川瀚庫智數科技有限公司
主分類號：	G06F16/21	分類號：	G06F16/21;G06F40/169
代理公司：	暫無信息	代理人：	暫無信息
地址：	610041 四川省成***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	推測數據庫字段含義方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種推測數據庫字段含義的方法，這種方法能夠根據數據庫字段本身的特征以及累計的知識庫預測出數據庫未知含義的字段的意義，在用戶確認此含義的準確程度時，可以根據用戶的選擇優化算法，在用戶反復確認后，這種方法的知識庫會不斷積累，達到同一場景下數據庫字段含義能夠準確的預測出來的目的。該方法通過知識庫和機器學習的技術結合，多種方法猜測字段的未知中文注釋，能夠較好的獲取未知字段真正的含義，為下一步的數據治理工作做了良好的前期工作。

技術領域

本發明具體涉及一種推測數據庫字段含義的方法。

背景技術

在信息化高度發達的當前社會，各類企事業單位都有各類信息化系統，但是由于各類原因，這些信息化系統中的數據庫可能會有數據庫字段缺乏注釋、數據庫文檔不齊全、數據庫字段未使用等各類問題。這些問題會導致系統升級改造困難、數據治理困難、數據難以分析、系統難以使用等。很多業務系統因為此類問題只有推翻重建，浪費了大量的人力物力和社會資源。

本發明通過各類方法來推測數據庫自身的未知字段的中文含義，并且能夠用戶的標記確認這些未知字段推測的準確性，為上面的問題提供了新的解決思路，有極大的社會意義。

發明內容

本發明的目的在于針對現有技術的不足，提供一種推測數據庫字段含義的方法，該推測數據庫字段含義的方法可以很好地解決上述問題。

為達到上述要求，本發明采取的技術方案是：提供一種推測數據庫字段含義的方法，該推測數據庫字段含義的方法包括如下步驟：

S1：總結常見的字段知識庫，獲取常見字段名的三個常見注釋以及注釋的分值；

S2：判斷字段是否是英文或者類似英文，如果是英文或者類似英文，那么字段含義為其中文翻譯；

S3：判斷沒有中文注釋的字段與同一數據庫中其他有中文注釋字段的相似度，相似度高的字段有相同的含義；

S4：根據上述方法得到不同的中文注釋以及其分值；

S5：根據推薦的結果選擇這個字段真正的含義，若以上結果都不在用戶選擇范圍內，那么用戶進行自定義書寫，用戶標記的結果會影響以后的推薦準確程度。

該推測數據庫字段含義的方法具有的優點如下：

該方法通過知識庫和機器學習的技術結合，多種方法猜測字段的未知中文注釋，能夠較好的獲取未知字段真正的含義，為下一步的數據治理工作做了良好的前期工作。

附圖說明

此處所說明的附圖用來提供對本申請的進一步理解，構成本申請的一部分，在這些附圖中使用相同的參考標號來表示相同或相似的部分，本申請的示意性實施例及其說明用于解釋本申請，并不構成對本申請的不當限定。在附圖中：

圖1示意性地示出了根據本申請一個實施例的流程示意圖。

具體實施方式

為使本申請的目的、技術方案和優點更加清楚，以下結合附圖及具體實施例，對本申請作進一步地詳細說明。

在以下描述中，對“一個實施例”、“實施例”、“一個示例”、“示例”等等的引用表明如此描述的實施例或示例可以包括特定特征、結構、特性、性質、元素或限度，但并非每個實施例或示例都必然包括特定特征、結構、特性、性質、元素或限度。另外，重復使用短語“根據本申請的一個實施例”雖然有可能是指代相同實施例，但并非必然指代相同的實施例。

為簡單起見，以下描述中省略了本領域技術人員公知的某些技術特征。

根據本申請的一個實施例，提供一種推測數據庫字段含義的方法，如圖1所示，包括本發明的具體步驟如下：

S1總結常見的字段知識庫，獲取常見字段名的三個常見注釋以及注釋的分值。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于四川瀚庫智數科技有限公司，未經四川瀚庫智數科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110239741.5/2.html，轉載請聲明來源鉆瓜專利網。