[發(fā)明專利]一種面向多源異構(gòu)數(shù)據(jù)歸一化的方法及裝置在審
| 申請?zhí)枺?/td> | 202211321307.2 | 申請日: | 2022-10-27 |
| 公開(公告)號: | CN115618083A | 公開(公告)日: | 2023-01-17 |
| 發(fā)明(設(shè)計)人: | 林飛;劉波;程紅;易永波;古元;毛華陽;華仲峰 | 申請(專利權(quán))人: | 北京亞鴻世紀(jì)科技發(fā)展有限公司 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06F16/901;G06F17/16;G06F18/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100095 北京市海淀區(qū)高里*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 多源異構(gòu) 數(shù)據(jù) 歸一化 方法 裝置 | ||
1.一種面向多源異構(gòu)數(shù)據(jù)歸一化的裝置由服務(wù)數(shù)據(jù)采集模塊、特征向量提取模塊、特征向量矩陣構(gòu)建模塊和特征聚類計算模塊組成;
服務(wù)數(shù)據(jù)采集模塊負(fù)責(zé)接收來自不同應(yīng)用的數(shù)據(jù),來自不同應(yīng)用的數(shù)據(jù)稱為服務(wù)數(shù)據(jù);服務(wù)數(shù)據(jù)采集模塊為服務(wù)數(shù)據(jù)賦予數(shù)字化的服務(wù)標(biāo)識,從而將來自不同應(yīng)用的數(shù)據(jù)通過服務(wù)標(biāo)識區(qū)別存儲為帶服務(wù)標(biāo)識的服務(wù)數(shù)據(jù);帶服務(wù)標(biāo)識的服務(wù)數(shù)據(jù)具有多源異構(gòu)的特征,服務(wù)數(shù)據(jù)采集模塊將帶服務(wù)標(biāo)識的服務(wù)數(shù)據(jù)發(fā)送給特征向量提取模塊;
特征向量提取模塊對帶服務(wù)標(biāo)識的服務(wù)數(shù)據(jù)提取特征向量,根據(jù)數(shù)據(jù)的通用特性,特征向量的元素包括字段名和字段值,采用鍵值對的形式記錄為(字段名,字段值);同一個服務(wù)標(biāo)識的帶服務(wù)標(biāo)識的服務(wù)數(shù)據(jù)具有多個特征向量,特征向量提取模塊為同一個服務(wù)標(biāo)識的帶服務(wù)標(biāo)識的服務(wù)數(shù)據(jù)的多個特征向量賦予數(shù)字化的向量標(biāo)識;特征向量提取模塊為所有帶服務(wù)標(biāo)識的服務(wù)數(shù)據(jù)都添加完向量標(biāo)識后存儲為帶服務(wù)標(biāo)識和向量標(biāo)識的服務(wù)數(shù)據(jù);特征向量提取模塊將帶服務(wù)標(biāo)識和向量標(biāo)識的服務(wù)數(shù)據(jù)發(fā)送給特征向量矩陣構(gòu)建模塊;字段名記為k,字段值記為v,服務(wù)標(biāo)識記為m,特征向量維度為i,則帶服務(wù)標(biāo)識和向量標(biāo)識的服務(wù)數(shù)據(jù)表示為:
特征向量矩陣構(gòu)建模塊遍歷帶服務(wù)標(biāo)識和向量標(biāo)識的服務(wù)數(shù)據(jù)找到特征向量數(shù)量最多的服務(wù)標(biāo)識,以特征向量最多的服務(wù)標(biāo)識的特征向量數(shù)量為標(biāo)準(zhǔn),將其他服務(wù)標(biāo)識對應(yīng)的帶服務(wù)標(biāo)識和向量標(biāo)識的服務(wù)數(shù)據(jù)的特征向量以填充空位補足到特征向量最多的服務(wù)標(biāo)識的特征向量數(shù)量;記特征向量最多的服務(wù)標(biāo)識的特征向量數(shù)量為n,服務(wù)標(biāo)識的種類為m,特征向量矩陣構(gòu)建模塊將所有帶服務(wù)標(biāo)識和向量標(biāo)識的服務(wù)數(shù)據(jù)形成m乘以n的矩陣,稱為特征矩陣,矩陣的任意元素記為a,,j為服務(wù)標(biāo)識維度,i為向量標(biāo)識維度;特征矩陣A表示為:;
由特征聚類計算模塊對特征矩陣中的每個非0元素進行字段名的聚類計算,即針對中的k進行相似度計算,對特征矩陣A的所有非0元素計算鍵值k的simhash,可得到m×n的矩陣B,相似度矩陣B表示為:;其中某個元素為:, simhash()為相似度hash的計算函數(shù);以矩陣B的每一行為計算粒度,對該行的每個元素,與后續(xù)行的元素進行海明距離計算,以下列條件在每一行選擇滿足條件的元素生成矩陣C,要滿足的條件包括:條件1,海明距離小于3;條件2,滿足條件1的情況下,選擇海明距離最小的元素;設(shè)海明距離計算函數(shù)為:distantHM(x, y),計算流程如下:矩陣B的第i行表示為:,則第i+1行的海明距離計算,可得到集合:,選擇滿足{x | x∈D且x3且x∈MIN(D)}條件的結(jié)果,當(dāng)?shù)趇行完成計算,可得到結(jié)果集;表示結(jié)果集中存在空集的元素;所有行計算結(jié)束后,可得到m×n的矩陣,記為C;矩陣C的任意元素表示為;
矩陣C代表為矩陣B的每位元素都找到了對應(yīng)的相似集合;循環(huán)比較矩陣C的兩個元素,如果存在交集,則取兩個集合的并集;否則,不作任何操作,繼續(xù)下一次循環(huán);當(dāng)矩陣C遍歷完成后,聚類即完成,因為矩陣C的成員實際是特征向量k的simhash,特征向量k代表字段名,因此根據(jù)simhash,可以對應(yīng)到某個具體的特征向量,可以得到特征向量的聚類結(jié)果,即根據(jù)上述并集的成員,將矩陣C的成員映射到字段名,聚類的結(jié)果進行存儲,用于進一步提供給其他系統(tǒng)作為分析計算的素材。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京亞鴻世紀(jì)科技發(fā)展有限公司,未經(jīng)北京亞鴻世紀(jì)科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211321307.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)
- 用于電網(wǎng)的多源異構(gòu)數(shù)據(jù)處理方法及裝置
- 一種配用電數(shù)據(jù)的處理方法及系統(tǒng)
- 一種面向水下探測的多源異構(gòu)數(shù)據(jù)預(yù)處理方法及系統(tǒng)
- 一種基于深度學(xué)習(xí)的綜采工作面多源異構(gòu)數(shù)據(jù)融合方法
- 基于業(yè)務(wù)規(guī)則的多源異構(gòu)數(shù)據(jù)表示與分發(fā)方法、裝置
- 一種基于邊緣計算的電力異構(gòu)數(shù)據(jù)處理方法
- 適用于多源異構(gòu)電網(wǎng)的運行方式拓?fù)浣Y(jié)構(gòu)特征提取方法
- 一種多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)方法
- 一種多源異構(gòu)數(shù)據(jù)的描述方法、解析方法及裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





