[發(fā)明專利]數(shù)據(jù)要素分析方法、裝置、電子裝置和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011136082.4 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112464640A | 公開(公告)日: | 2021-03-09 |
| 發(fā)明(設(shè)計)人: | 鄭博方;王龍;陳立力 | 申請(專利權(quán))人: | 浙江大華技術(shù)股份有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/289;G06F40/30;G06F40/117;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州華進聯(lián)浙知識產(chǎn)權(quán)代理有限公司 33250 | 代理人: | 蔣豹 |
| 地址: | 310016 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 要素 分析 方法 裝置 電子 存儲 介質(zhì) | ||
本申請涉及一種數(shù)據(jù)要素分析方法、裝置、電子裝置和存儲介質(zhì),其中,該數(shù)據(jù)要素分析方法包括:獲取數(shù)據(jù)庫表格中的多個字段,所述字段中包括限定詞和數(shù)據(jù)元詞;對多個所述字段進行分詞處理,獲得對應(yīng)的限定集合和數(shù)據(jù)元集合,其中所述限定集合包含有多個所述限定詞,所述數(shù)據(jù)元集合包含有多個所述數(shù)據(jù)元詞;基于所述限定集合和所述數(shù)據(jù)元集合進行數(shù)據(jù)要素分析,對多個所述字段進行關(guān)聯(lián)標(biāo)記。通過本申請,通過對多個字段進行關(guān)聯(lián)標(biāo)記或關(guān)系標(biāo)記,從底層數(shù)據(jù)出發(fā),挖掘出數(shù)據(jù)表中存在各種有用信息,通過對字段進行分析,展現(xiàn)出存在于字段中數(shù)據(jù)之間的完善價值信息,解決了數(shù)據(jù)業(yè)務(wù)架構(gòu)數(shù)據(jù)利用效率低下的問題,提高了數(shù)據(jù)利用效率。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及數(shù)據(jù)要素分析方法、裝置、電子裝置和存儲介質(zhì)。
背景技術(shù)
隨著數(shù)據(jù)分析技術(shù)的快速發(fā)展,大數(shù)據(jù)的分析逐漸為人們所重視。在數(shù)據(jù)治理中,數(shù)據(jù)的來源及形式是多樣的,表格數(shù)據(jù)文件是其中的一種常見類型。
目前針對數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)的分類,主要基于對字段名稱和注釋的語義分析、對字段內(nèi)容的規(guī)則等對其進行匹配分類。傳統(tǒng)的數(shù)據(jù)處理,是將業(yè)務(wù)與數(shù)據(jù)進行關(guān)聯(lián),提取與業(yè)務(wù)相關(guān)的數(shù)據(jù),數(shù)據(jù)利用效率低下。
目前針對相關(guān)技術(shù)中數(shù)據(jù)業(yè)務(wù)架構(gòu)數(shù)據(jù)利用效率低下,尚未提出有效的解決方案。
發(fā)明內(nèi)容
本申請實施例提供了一種數(shù)據(jù)要素分析方法、裝置、電子裝置和存儲介質(zhì),以至少解決相關(guān)技術(shù)中數(shù)據(jù)業(yè)務(wù)架構(gòu)數(shù)據(jù)利用效率低下的問題。
第一方面,本申請實施例提供了一種數(shù)據(jù)要素分析方法,包括:
獲取數(shù)據(jù)庫表格中的多個字段,所述字段中包括限定詞和數(shù)據(jù)元詞;
對多個所述字段進行分詞處理,獲得對應(yīng)的限定集合和數(shù)據(jù)元集合,其中所述限定集合包含有多個所述限定詞,所述數(shù)據(jù)元集合包含有多個所述數(shù)據(jù)元詞;
基于所述限定集合和所述數(shù)據(jù)元集合進行數(shù)據(jù)要素分析,對多個所述字段進行關(guān)聯(lián)標(biāo)記。
在其中一些實施例中,所述對將多個所述字段進行分詞處理,獲得對應(yīng)的限定集合和數(shù)據(jù)元集合包括:
將多個所述字段轉(zhuǎn)換為標(biāo)準(zhǔn)詞;
將多個所述字段進行分詞處理,獲得多個所述限定詞和多個所述數(shù)據(jù)元詞;
將所述標(biāo)準(zhǔn)詞進行分詞,獲得多個所述限定詞和多個所述數(shù)據(jù)元詞;
將多個所述限定詞和多個所述數(shù)據(jù)元詞輸入識別模型進行分類,獲得對應(yīng)的所述限定集合和所述數(shù)據(jù)元集合。
在其中一些實施例中,所述將多個所述限定詞和多個所述數(shù)據(jù)元詞輸入語義識別模型進行分類,獲得對應(yīng)的所述限定集合和所述數(shù)據(jù)元集合包括:
將多個所述限定詞輸入第一識別模型,得到多個所述限定集合;
將多個所述數(shù)據(jù)元詞輸入第二識別模型,得到多個所述數(shù)據(jù)元集合。
在其中一些實施例中,所述將多個所述限定詞輸入第一識別模型,得到多個限定集合包括:
根據(jù)相似度計算方法計算多個所述限定詞的語義相似度;
將所述語義相似度大于或等于相似度閾值的限定詞進行整合,生成所述限定集合。
在其中一些實施例中,所述將多個所述數(shù)據(jù)元詞輸入第二識別模型,得到多個數(shù)據(jù)元集合之前包括:
建立神經(jīng)網(wǎng)絡(luò),將多個所述數(shù)據(jù)元詞作為訓(xùn)練集對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,獲得第二識別模型,所述第二識別模型的輸入為多個所述數(shù)據(jù)元詞,輸出為多個數(shù)據(jù)元集合。
在其中一些實施例中,所述基于所述限定集合和所述數(shù)據(jù)元集合進行數(shù)據(jù)要素分析,對多個所述字段進行關(guān)聯(lián)標(biāo)記包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大華技術(shù)股份有限公司,未經(jīng)浙江大華技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011136082.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





