[發(fā)明專利]字段的規(guī)范化自動命名方法、裝置及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011066109.7 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112149419A | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設計)人: | 梁婷;祁成;管濤;方劍 | 申請(專利權(quán))人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/247;G06F16/31;G06F16/35;G06K9/62 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 任默聞;孫乳筍 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 字段 規(guī)范化 自動 命名 方法 裝置 系統(tǒng) | ||
本發(fā)明提供了一種字段的規(guī)范化自動命名方法、裝置及系統(tǒng),所述方法包含:獲取待命名的字段所對應的中文數(shù)據(jù);通過預設短語詞庫對所述字段對應的中文數(shù)據(jù)進行分詞處理獲得描述短語,根據(jù)所述描述短語的詞性篩除所述描述短語中預定類別短語獲得命名短語;將所述命名短語與預設短語詞庫比較,獲得所述命名短語對應的分類信息和縮寫標識;根據(jù)所述分類信息和所述縮寫標識按預設命名組裝規(guī)則組裝獲得命名數(shù)據(jù)。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)倉庫研發(fā)領(lǐng)域,尤指一種字段的規(guī)范化自動命名方法、裝置及系統(tǒng)。
背景技術(shù)
在數(shù)據(jù)倉庫進行數(shù)據(jù)開發(fā)時,頻繁會遇到給上百個字段命名的工作。字段由多個短語組成,字段命名工作就是根據(jù)已知的字段中文名取出字段英文名。字段命名需要遵守數(shù)倉建設規(guī)范,如單個短語縮寫規(guī)范、多個短語組合順序規(guī)范等,達到通過字段命名理解到字段的含義的目的。
當前做法有兩種:一是人工命名,往往需要耗費大量時間精力,通常1個字段需要1-2分鐘。二是最長匹配原則自動化命名,采用逐步迭代的方法,比如字段“最近7天逾期天數(shù)”,首先匹配短語詞庫“最近7天逾期天數(shù)”,未匹配到的話繼續(xù)匹配“最近7天逾期天”、“最近7天逾期”、“最近7天逾”、“最近7天”,匹配到后,繼續(xù)匹配“逾期天數(shù)”、“逾期天”、“逾期”,匹配到后,繼續(xù)匹配“天數(shù)”;該方案缺點有二,一是命名的成功率低,嚴重依賴字段中文描述規(guī)范,比如“最近7天的逾期天數(shù)”,短語庫中沒有“的”短語的縮寫,故該字段無法命名,二是該方案層層循環(huán),效率低,消耗系統(tǒng)計算資源多;三是中文名不同但其實是同義的變量無法識別,會命名成不同的字段名,提升了數(shù)據(jù)倉庫的管理難度和數(shù)據(jù)使用難度。
綜上,如何提供一種新的方案,能夠花費更小計算成本、提高命名成功率,并且能夠識別同義字段、對同義字段使用相同字段命名,是本領(lǐng)域亟待解決的難題。
發(fā)明內(nèi)容
本發(fā)明目的在于提供一種字段的規(guī)范化自動命名方法、裝置及系統(tǒng),以在花費更小計算成本的基礎上提高命名的成功率,并且能夠識別同義字段、對同義字段使用相同字段命名。
為達上述目的,本發(fā)明所提供的字段的規(guī)范化自動命名方法,具體包含:獲取待命名的字段所對應的中文數(shù)據(jù);通過預設短語詞庫對所述字段對應的中文數(shù)據(jù)進行分詞處理獲得描述短語,根據(jù)所述描述短語的詞性篩除所述描述短語中預定類別短語獲得命名短語;將所述命名短語與預設短語詞庫比較,獲得所述命名短語對應的分類信息和縮寫標識;根據(jù)所述分類信息和所述縮寫標識按預設命名組裝規(guī)則組裝獲得命名數(shù)據(jù)。
在上述字段的規(guī)范化自動命名方法中,優(yōu)選的,將所述命名短語與預設短語詞庫比較之前還包含:于預設數(shù)據(jù)庫中檢索所述字段的歷史命名數(shù)據(jù);當存在歷史命名數(shù)據(jù)時,比較分析所述歷史命名數(shù)據(jù)和所述命名短語之間的相似性;當所述相似性超出預設閾值時,以所述歷史命名數(shù)據(jù)作為所述字段的命名數(shù)據(jù)。
在上述字段的規(guī)范化自動命名方法中,優(yōu)選的,比較分析所述歷史命名數(shù)據(jù)和所述命名短語之間的相似性包含:通過詞向量模型分別獲取所述歷史命名數(shù)據(jù)和所述命名短語的詞向量;利用詞向量相似度計算方法比較所述歷史命名數(shù)據(jù)和所述命名短語的詞向量之間的相似度,獲得所述歷史命名數(shù)據(jù)和所述命名短語之間的相似性。
在上述字段的規(guī)范化自動命名方法中,優(yōu)選的,通過預設短語詞庫對所述字段對應的中文數(shù)據(jù)進行分詞處理獲得描述短語,根據(jù)所述描述短語的詞性篩除所述描述短語中預定類別短語獲得命名短語包含:根據(jù)預設短語詞庫構(gòu)建單詞查找樹,通過所述單詞查找樹利用二分查找算法對所述字段對應的中文數(shù)據(jù)進行機械分詞和詞性標注;根據(jù)所述描述短語的詞性篩除所述描述短語中無義詞后獲得命名短語。
在上述字段的規(guī)范化自動命名方法中,優(yōu)選的,通過預設短語詞庫對所述字段對應的中文數(shù)據(jù)進行分詞處理獲得描述短語還包含:當預設短語詞庫中未包含所述描述短語時,根據(jù)所述中文數(shù)據(jù)生成提示信息;通過所述提示信息請求獲得外部輸入的描述短語及對應的詞性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國工商銀行股份有限公司,未經(jīng)中國工商銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011066109.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





