[發(fā)明專利]一種數(shù)據(jù)處理方法及相關(guān)設(shè)備在審
| 申請?zhí)枺?/td> | 202110259775.0 | 申請日: | 2021-03-10 |
| 公開(公告)號: | CN112965890A | 公開(公告)日: | 2021-06-15 |
| 發(fā)明(設(shè)計)人: | 周子站;郭東丹;劉曉輝;周凱洋;王曉勃 | 申請(專利權(quán))人: | 中國民航信息網(wǎng)絡(luò)股份有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06K9/62;G06N3/08;G06N20/00 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 100085 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)處理 方法 相關(guān) 設(shè)備 | ||
1.一種數(shù)據(jù)處理方法,其特征在于,包括:
對原始日志數(shù)據(jù)進行處理,得到指令操作序列集合;
提取所述指令操作序列集合中的最終候選業(yè)務(wù)集合;
根據(jù)對比學(xué)習(xí)模型確定第一候選業(yè)務(wù)中每個指令的嵌入向量,所述對比學(xué)習(xí)模型為對所述最終候選業(yè)務(wù)集合以及隨機生成的指令短序列進行訓(xùn)練得到的,所述第一候選業(yè)務(wù)為所述最終候選業(yè)務(wù)集合中的任意一個候選業(yè)務(wù),所述每個指令嵌入向量指示當(dāng)前指令與其他指令的相似程度;
通過聚類算法對所述第一候選業(yè)務(wù)中每個指令的嵌入向量進行聚類處理,得到所述最終候選業(yè)務(wù)集合對應(yīng)的指令簇。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對原始日志數(shù)據(jù)進行處理,得到指令序列集合包括:
提取所述原始日志數(shù)據(jù)中程序標(biāo)識符集合對應(yīng)的指令操作序列;
將所述程序標(biāo)識符集合中相同的程序標(biāo)識符對應(yīng)的指令操作序列進行合并;
剔除合并后所述相同的程序標(biāo)識符對應(yīng)的指令操作序列中的重復(fù)指令,得到所述相同的程序標(biāo)識符對應(yīng)的目標(biāo)指令序列集合;
將所述目標(biāo)指令序列集合以及所述程序標(biāo)識符集合中不相同的程序標(biāo)識符對應(yīng)的指令操作序列確定為所述指令操作序列集合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取所述指令操作序列集合中的最終候選業(yè)務(wù)集合包括:
確定目標(biāo)指令操作序列中序列長度不超過第一預(yù)設(shè)值的候選業(yè)務(wù)集合,所述目標(biāo)指令操作序列為所述指令操作序列集合中的任意一個指令操作序列;
計算目標(biāo)候選業(yè)務(wù)在所述指令操作序列集合中的候選業(yè)務(wù)頻率,所述目標(biāo)候選業(yè)務(wù)為所述候選業(yè)務(wù)集合中的任意一個候選業(yè)務(wù);
計算所述目標(biāo)候選業(yè)務(wù)的邊緣混亂度;
計算所述目標(biāo)候選業(yè)務(wù)的業(yè)務(wù)緊致度;
將所述候選業(yè)務(wù)集合中所述候選業(yè)務(wù)頻率滿足候選業(yè)務(wù)頻率閾值、所述邊緣混亂度滿足邊緣混亂度閾值以及所述業(yè)務(wù)緊致度滿足業(yè)務(wù)緊致度閾值的候選業(yè)務(wù)確定初始候選業(yè)務(wù)集合;
對所述初始候選業(yè)務(wù)集合進行去冗余處理;
確定所述目標(biāo)指令操作序列滿足所述邊緣混亂度閾值以及所述業(yè)務(wù)緊致度閾值的備選候選業(yè)務(wù)集合;
將去冗余后的所述初始候選詞集合以及所述備選候選業(yè)務(wù)集合確定為所述最終候選業(yè)務(wù)集合。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述計算所述目標(biāo)候選業(yè)務(wù)的邊緣混亂度包括:
通過如下公式計算所述目標(biāo)候選業(yè)務(wù)的左信息熵:
其中,Hl(W)為所述目標(biāo)候選業(yè)務(wù)w的左信息熵,p(wl|w)為所述目標(biāo)業(yè)務(wù)w左側(cè)出現(xiàn)指令wl的條件概率;
通過如下公式計算所述目標(biāo)候選業(yè)務(wù)的右信息熵:
其中,Hr(W)為所述目標(biāo)候選業(yè)務(wù)w的右信息熵,p(wr|w)為所述目標(biāo)業(yè)務(wù)w右側(cè)出現(xiàn)指令wr的條件概率;
基于所述左信息熵以及所述右信息熵通過如下公式計算所述目標(biāo)候選業(yè)務(wù)的邊緣混亂度:
H(W)=min(Hl(w),Hr(w));
其中,H(W)為所述目標(biāo)候選業(yè)務(wù)w的邊緣混亂度。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述計算所述目標(biāo)候選業(yè)務(wù)的業(yè)務(wù)緊致度包括:
通過如下公式計算所述目標(biāo)候選業(yè)務(wù)的業(yè)務(wù)緊致度:
MI(W)=min(MI0(W),...,MIi(W),...,MIlen-1(W));
其中,MI(W)為所述目標(biāo)候選業(yè)務(wù)w的業(yè)務(wù)緊致度,MIi(W)為所述目標(biāo)候選業(yè)務(wù)w的前i個指令簇和剩余指令簇的連接強度:
通過如下公式計算所述目標(biāo)候選業(yè)務(wù)w的前i個指令簇和剩余指令簇的連接強度:
其中,N(W[0:i])為所述目標(biāo)候選業(yè)務(wù)w中第一個指令到第i個指令構(gòu)成的序列整體在所述目標(biāo)操作指令序列中出現(xiàn)的次數(shù),N(W[i+1:len])為所述目標(biāo)候選業(yè)務(wù)w中第i+1個指令到最后一個指令構(gòu)成的序列整體在所述目標(biāo)操作指令序列中出現(xiàn)的次數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國民航信息網(wǎng)絡(luò)股份有限公司,未經(jīng)中國民航信息網(wǎng)絡(luò)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110259775.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





