[發明專利]一種分布式域名存儲方法及系統有效
申請號: | 202011250147.8 | 申請日: | 2020-11-10 |
公開(公告)號: | CN112422712B | 公開(公告)日: | 2023-05-23 |
發明(設計)人: | 李曉東;王偉;彭博韜;張寧;楊國強 | 申請(專利權)人: | 山東伏羲智庫互聯網研究院;伏羲科技(菏澤)有限公司 |
主分類號: | H04L61/4511 | 分類號: | H04L61/4511;H04L67/1097;G06N3/08;G06F18/241;G06F18/23 |
代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 聶俊偉 |
地址: | 100192 北京市海淀區永*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 分布式 域名 存儲 方法 系統 | ||
1.一種分布式域名存儲方法,其特征在于,包括:
提取域名文本數據,并獲取所述域名文本數據所對應的域名特征向量;
對所述域名特征向量進行iSAX字符表示,獲取對應的iSAX編碼;
根據所述iSAX編碼將所述域名文本數據分布于iSAX向量空間的一個子區域;每個所述子區域對應一個分布存儲節點;
其中,所述提取域名文本數據,并獲取所述域名文本數據所對應的域名特征向量,具體包括:
提取域名中所包含的所述域名文本數據;
以點作為分割詞,對所述域名文本數據進行分割處理,獲取多個目標域名文本數據;
將每個所述目標域名文本數據輸入至預先構建的Bert詞嵌入算法模型,獲取由所述Bert詞嵌入算法模型輸出的目標域名特征向量;
每個所述目標域名特征向量與每個所述目標域名文本數據對應;
在對所述域名特征向量進行iSAX字符表示,獲取對應的iSAX編碼之前,對每個所述域名特征向量進行降維處理,具體包括:
基于算數平均值,將所有的目標域名特征向量均分為多個目標域名特征向量集;
分別計算每個所述目標域名特征向量集中所有的目標域名特征向量的向量平均值,作為所述目標域名特征向量集的表征向量,完成對所述域名特征向量的降維處理;
所述對所述域名特征向量進行iSAX字符表示,獲取對應的iSAX編碼,包括:
根據將浮點數空間按照遵循正態分布劃分的形成的等概率區間,對所述域名特征向量進行離散符號化表示,獲取與所述域名特征向量對應的iSAX編碼;
所述根據所述iSAX編碼將所述域名文本數據分布于iSAX向量空間的一個子區域,包括:
根據所有域名文本數據對應的所述iSAX編碼所對應的域名數量,對所述iSAX向量空間進行裂變操作,獲取多個子區域;
確定每個所述子區域對應的分布存儲節點,以將所述iSAX編碼存儲于所述分布存儲節點。
2.根據權利要求1所述的分布式域名存儲方法,其特征在于,所述iSAX編碼是由多個SAX碼元以及表示每個碼元基數的數值構成。
3.根據權利要求1所述的分布式域名存儲方法,其特征在于,所述根據所有域名文本數據對應的所述iSAX編碼所對應的域名數量,對所述iSAX向量空間進行裂變操作,包括:
若任一目標iSAX編碼所對應的域名數量所述域名數大于第一預設閾值,則對所述目標iSAX編碼對應的iSAX向量空間進行裂變操作;
或者,若任一目標iSAX編碼所對應的域名數量與其他的iSAX編碼所對應的域名數量之間的差值大于第二預設閾值,則對所述目標iSAX編碼對應的iSAX向量空間進行裂變操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東伏羲智庫互聯網研究院;伏羲科技(菏澤)有限公司,未經山東伏羲智庫互聯網研究院;伏羲科技(菏澤)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011250147.8/1.html,轉載請聲明來源鉆瓜專利網。