[發(fā)明專利]一種文件聚類方法、裝置及設(shè)備在審
| 申請?zhí)枺?/td> | 201910163113.6 | 申請日: | 2019-03-05 |
| 公開(公告)號: | CN111666404A | 公開(公告)日: | 2020-09-15 |
| 發(fā)明(設(shè)計)人: | 韓孟玲;魏向前;程虎;譚昱;彭寧;許天勝 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文件 方法 裝置 設(shè)備 | ||
1.一種文件聚類方法,其特征在于,所述方法包括:
獲取多個待聚類文件執(zhí)行時調(diào)用的應(yīng)用程序接口序列信息,所述應(yīng)用程序接口序列信息包括按照調(diào)用時序排序的多個應(yīng)用程序接口;
根據(jù)每一待聚類文件所對應(yīng)的多個應(yīng)用程序接口的排序?qū)⑺雒恳淮垲愇募膽?yīng)用程序接口序列信息組合成多個接口序列元組,所述接口序列元組至少包含兩個應(yīng)用程序接口;
確定每一待聚類文件所對應(yīng)的所述多個接口序列元組的多個特征向量;
基于所述每一待聚類文件所對應(yīng)的多個特征向量確定所述每一待聚類文件的特征向量;
利用所述多個待聚類文件的特征向量對所述多個待聚類文件進行聚類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述多個待聚類文件的特征向量對所述多個待聚類文件進行聚類,包括:
對所述每一待聚類文件的特征向量進行最小哈希計算,得到多個最小哈希值;
根據(jù)所述多個最小哈希值將所述每一待聚類文件的特征向量分到多個接口序列桶中;
計算同一接口序列桶中的待聚類文件的特征向量兩兩之間的距離;
判斷同一接口序列桶中的待聚類文件的特征向量兩兩之間的距離是否小于等于預(yù)設(shè)距離閾值;
當兩個待聚類文件的特征向量間的距離小于等于預(yù)設(shè)距離閾值時,將所述兩個待聚類文件進行聚類。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述多個待聚類文件的特征向量對所述多個待聚類文件進行聚類,包括:
計算待聚類文件的特征向量兩兩之間的距離;
判斷待聚類文件的特征向量兩兩之間的距離是否大于等于預(yù)設(shè)距離閾值;
當兩個待聚類文件的特征向量間的距離小于等于預(yù)設(shè)距離閾值時,將所述兩個待聚類文件進行聚類。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)每一待聚類文件所對應(yīng)的多個應(yīng)用程序接口的排序?qū)⑺雒恳淮垲愇募膽?yīng)用程序接口序列信息組合成多個接口序列元組,包括:
確定接口序列元組所包含的應(yīng)用程序接口的第一數(shù)量;
基于所述第一數(shù)量的確定應(yīng)用程序接口提取窗口;
利用所述應(yīng)用程序接口提取窗口從每一待聚類文件的應(yīng)用程序接口序列信息中依次提取第一數(shù)量個相鄰的應(yīng)用程序接口,得到多個接口序列元組,其中,所述應(yīng)用程序接口提取窗口在依次提取第一數(shù)量個相鄰的應(yīng)用程序接口時的移動步長為一個應(yīng)用程序接口。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定每一待聚類文件所對應(yīng)的所述多個接口序列元組的多個特征向量,包括:
利用消息摘要算法對每一待聚類文件所對應(yīng)的所述多個接口序列元組進行映射處理,得到所述多個接口序列元組的多個特征向量。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述每一待聚類文件所對應(yīng)的多個特征向量確定所述每一待聚類文件的特征向量,包括:
利用局部敏感哈希算法將所述每一待聚類文件所對應(yīng)的多個特征向量轉(zhuǎn)換成所述每一待聚類文件的特征向量。
7.一種文件聚類裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取多個待聚類文件執(zhí)行時調(diào)用的應(yīng)用程序接口序列信息,所述應(yīng)用程序接口序列信息包括按照調(diào)用時序排序的多個應(yīng)用程序接口;
組合模塊,用于根據(jù)每一待聚類文件所對應(yīng)的多個應(yīng)用程序接口的排序?qū)⑺雒恳淮垲愇募膽?yīng)用程序接口序列信息組合成多個接口序列元組,所述接口序列元組至少包含兩個應(yīng)用程序接口;
第一確定模塊,用于確定每一待聚類文件所對應(yīng)的所述多個接口序列元組的多個特征向量;
第二確定模塊,用于基于所述每一待聚類文件所對應(yīng)的多個特征向量確定所述每一待聚類文件的特征向量;
聚類模塊,用于利用所述多個待聚類文件的特征向量對所述多個待聚類文件進行聚類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910163113.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種雙面背接觸太陽能電池組件
- 下一篇:一種室外裝飾樹木用LED燈
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





