[發明專利]推測數據庫字段含義的方法在審
| 申請號: | 202110239741.5 | 申請日: | 2021-03-04 |
| 公開(公告)號: | CN113032360A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 唐弋鈞;聶敏;楊磊;李春 | 申請(專利權)人: | 四川瀚庫智數科技有限公司 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F40/169 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 推測 數據庫 字段 含義 方法 | ||
1.一種推測數據庫字段含義的方法,其特征在于,包括如下步驟:
S1:總結常見的字段知識庫,獲取常見字段名的三個常見注釋以及注釋的分值;
S2:判斷字段是否是英文或者類似英文,如果是英文或者類似英文,那么字段含義為其中文翻譯;
S3:判斷沒有中文注釋的字段與同一數據庫中其他有中文注釋字段的相似度,相似度高的字段有相同的含義;
S4:根據上述方法得到不同的中文注釋以及其分值;
S5:根據推薦的結果選擇這個字段真正的含義,若以上結果都不在用戶選擇范圍內,那么用戶進行自定義書寫,用戶標記的結果會影響以后的推薦準確程度。
2.根據權利要求1所述的推測數據庫字段含義的方法,其特征在于,將所述S1:總結常見的字段知識庫,獲取常見字段名的三個常見注釋以及注釋的分值,的過程定義為方法A,其具體包括如下步驟:
S1.1:獲取數據庫元數據信息,將數據庫字段統一處理為大寫,保留其中有中文注釋的字段,其中包含字段Z1,Z2…Zi,建立字段與中文注釋的映射表;
S1.2:一個字段具有多個中文注釋,按照中文注釋出現的次數統計排序,保留前三的中文注釋,分別賦予分值為a1、a2、a3,且a1a2a3;
S1.3:根據步驟S1.2的規則遍歷所有字段,讓其中有中文注釋的字段保留n個中文含義,且n小于等于3,并且每個中文含義都有對應的分值;
S1.4:通過上述步驟獲取i個字段的中文含義以及每個中文含義對應的分值,并將這些數據作為知識庫;若有一個數據庫,里面有一個沒有中文注釋的字段,通過字段名稱于知識庫中匹配對應的名稱,并且找到對應的中文含義及其分值。
3.根據權利要求2所述的推測數據庫字段含義的方法,其特征在于,將步驟S2:判斷字段是否是英文或者類似英文,如果是英文或者類似英文,那么字段含義為其中文翻譯的步驟中,如果有一個數據庫,里面有一個沒有中文注釋的字段,獲取這些字段中文注釋及中文注釋分值的過程定義為方法B,其具體如下:
S2.1:獲取數據庫元數據信息,將數據庫字段統一處理為大寫,其中包含字段Z1,Z2…Zi,通過代碼判斷這些字段是否是英文單詞,若為英文單詞則對其進行翻譯并取得其翻譯后的中文含義;
S2.2:一個字段有多個中文翻譯,那么按照n個中文注釋出現的次數統計排序,并保留前三的中文注釋,賦予其分值為b1、b2、b3,且b1b2b3。
4.根據權利要求3所述的推測數據庫字段含義的方法,其特征在于,將步驟S3:判斷沒有中文注釋的字段與同一數據庫中其他有中文注釋字段的相似度,相似度高的字段有相同的含義中若數據庫里有一個沒有中文注釋的字段,為這些字段獲取中文注釋及中文注釋的權重的過程定義為方法C,其具體步驟如下:
S3.1:獲取一個沒有中文注釋的字段Z1處理為大寫,一個有中文注釋字段的Z2處理為大寫,通過編輯距離來獲取兩者編輯次數,次數越多,相似值越小,兩者之間的編輯距離為D1;
S3.2:Z1在同一個數據庫中與所有有中文注釋的字段計算編輯距離,獲得一組編輯距離的集合{D1,D2,D3…Dn},將n個編輯距離從小到大排序,保留前三排名的編輯距離對應的字段及其中文注釋,賦予其值為c1、c2、c3,且c1c2c3。
5.根據權利要求4所述的推測數據庫字段含義的方法,其特征在于:步驟S4:根據上述方法得到不同的中文注釋以及其分值,具體如下:
S4.1:方法A得到a1,a2,a3;方法B得到b1,b2,b3;方法C得到c1,c2,c3;
S4.2:根據方法A、B、C的有效程度,分別給方法A、方法B、方法C賦予權重為{x,y,z}∈(0,1);
S4.3:根據方法A、B、C對字段所得到的中文注釋的分值來進行排序,排序后的中文注釋先后順序表示的這個字段所得到的中文含義可能性,按照這個排序和分值對用戶推薦。
6.根據權利要求5所述的推測數據庫字段含義的方法,其特征在于:根據推薦的結果選擇這個字段真正的含義,若以上結果都不在用戶選擇范圍內,那么用戶進行自定義書寫,用戶標記的結果會影響以后的推薦準確程度,具體步驟如下:
S5.1:若多個數據庫,同一個名稱的字段被n次以上標記為某個中文注釋或自定義同一中文注釋,將這個中文注釋與這個字段的映射放入方法A的知識庫中;
S5.2:若某個字段被自定義為某個名稱,那么將自定義書寫的放入方法A的知識庫中,分值設置為當前字段所有映射的中文注釋中的最低分值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川瀚庫智數科技有限公司,未經四川瀚庫智數科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110239741.5/1.html,轉載請聲明來源鉆瓜專利網。





