[發(fā)明專利]相似域名查找方法、裝置及電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202011232693.9 | 申請(qǐng)日: | 2020-11-06 |
| 公開(kāi)(公告)號(hào): | CN112256838A | 公開(kāi)(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 李曉東;王偉;彭博韜;張寧;楊國(guó)強(qiáng) | 申請(qǐng)(專利權(quán))人: | 山東伏羲智庫(kù)互聯(lián)網(wǎng)研究院;伏羲科技(菏澤)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/31;G06F16/35;G06F40/253 |
| 代理公司: | 北京路浩知識(shí)產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 王宇楊 |
| 地址: | 100192 北京市海淀區(qū)永*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 相似 域名 查找 方法 裝置 電子設(shè)備 | ||
1.一種相似域名查找方法,其特征在于,包括:
獲取待查域名;
提取所述待查域名的文本特征,并對(duì)所述文本特征進(jìn)行向量化表示,得到待查域名特征向量;
對(duì)所述待查域名特征向量進(jìn)行編碼,并根據(jù)編碼結(jié)果從預(yù)設(shè)的全量域名數(shù)據(jù)庫(kù)中匹配出目標(biāo)域名特征向量組,其中,所述全量域名數(shù)據(jù)庫(kù)中包括根據(jù)域名特征向量編碼結(jié)果進(jìn)行分類的多個(gè)域名特征向量組;
計(jì)算所述待查域名特征向量與所述目標(biāo)特征向量組中每一個(gè)域名特征向量之間的距離,并根據(jù)所述距離得到所述待查域名的相似域名。
2.根據(jù)權(quán)利要求1所述的相似域名查找方法,其特征在于,所述計(jì)算所述待查域名特征向量與所述目標(biāo)特征向量組中每一個(gè)域名特征向量之間的距離,并根據(jù)所述距離得到所述待查域名的相似域名,具體包括:
計(jì)算所述待查域名特征向量與所述目標(biāo)特征向量組中每一個(gè)所述域名特征向量之間的歐幾里得距離,其中,所述歐幾里得距離指所述待查域名特征向量與一個(gè)所述域名特征向量之間對(duì)應(yīng)點(diǎn)的多維坐標(biāo)差的平方和;
獲得歐幾里得距離最短的域名特征向量對(duì)應(yīng)的域名,并將所述域名作為所述待查域名的相似域名。
3.根據(jù)權(quán)利要求1或2所述的相似域名查找方法,其特征在于,在對(duì)所述待查域名特征向量進(jìn)行編碼,并根據(jù)編碼結(jié)果從預(yù)設(shè)的全量域名數(shù)據(jù)庫(kù)中匹配出目標(biāo)域名特征向量組之前,還包括:構(gòu)建所述全量域名數(shù)據(jù)庫(kù)的步驟,具體包括:
獲取歷史域名解析數(shù)據(jù)庫(kù)中所有的歷史域名;
提取所述所有的歷史域名的文本特征,并對(duì)所有的歷史域名的文本特征進(jìn)行向量化表示,得到多個(gè)域名特征向量,各域名特征向量分別與各歷史域名一一對(duì)應(yīng);
對(duì)所述多個(gè)域名特征向量進(jìn)行編碼,根據(jù)編碼結(jié)果的不同,將所述多個(gè)域名特征向量分類為多個(gè)域名特征向量組,且為所述多個(gè)域名特征向量組構(gòu)建自適應(yīng)樹(shù)形索引,其中,各域名特征向量組包括至少一個(gè)所述域名特征向量。
4.根據(jù)權(quán)利要求3所述的相似域名查找方法,其特征在于,所述提取所述所有的歷史域名的文本特征,并對(duì)所有的歷史域名的文本特征進(jìn)行向量化表示,是通過(guò)BERT域名嵌入算法進(jìn)行的;
或,是通過(guò)WORD2VEC域名嵌入算法進(jìn)行的;
或,是通過(guò)GLOVE域名嵌入算法進(jìn)行的。
5.根據(jù)權(quán)利要求3所述的相似域名查找方法,其特征在于,所述對(duì)所述多個(gè)域名特征向量進(jìn)行編碼包括:
通過(guò)ISAX編碼法對(duì)所述多個(gè)域名特征向量進(jìn)行抽象化處理和編碼化處理。
6.根據(jù)權(quán)利要求5所述的相似域名查找方法,其特征在于,
所述樹(shù)形索引采用單線程向量索引法;
或,采用多線程并行向量索引法;
或,采用內(nèi)存型向量索引法。
7.根據(jù)權(quán)利要求1所述的相似域名查找方法,其特征在于,還包括:
通過(guò)惡意域名向量反向查詢法或基于索引的KNN相似性搜索法,分析判斷所述相似域名是否為惡意域名。
8.一種相似域名查找裝置,其特征在于,包括:
獲取模塊,用于獲取待查域名;
向量化模塊,用于提取所述待查域名的文本特征,并對(duì)所述文本特征進(jìn)行向量化表示,得到待查域名特征向量;
編碼模塊,用于對(duì)所述待查域名特征向量進(jìn)行編碼,并根據(jù)編碼結(jié)果從預(yù)設(shè)的全量域名數(shù)據(jù)庫(kù)中,匹配出目標(biāo)域名特征向量組,其中,所述全量域名數(shù)據(jù)庫(kù)中包括根據(jù)域名特征向量編碼結(jié)果進(jìn)行分類的多個(gè)域名特征向量組;
相似查找模塊,用于計(jì)算所述待查域名特征向量與所述目標(biāo)特征向量組中每一個(gè)域名特征向量之間的距離,根據(jù)所述距離得到所述待查域名的相似域名。
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的相似域名查找方法。
10.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的相似域名查找方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東伏羲智庫(kù)互聯(lián)網(wǎng)研究院;伏羲科技(菏澤)有限公司,未經(jīng)山東伏羲智庫(kù)互聯(lián)網(wǎng)研究院;伏羲科技(菏澤)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011232693.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 相似圖像提取裝置、相似圖像提取方法以及相似圖像提取程序
- 一種鋼結(jié)構(gòu)火災(zāi)反應(yīng)分析方法
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 一種蛋白質(zhì)相似度及相似蛋白質(zhì)的確定方法和系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種圖像搜索方法、裝置和存儲(chǔ)介質(zhì)
- 基于相似壽命模型和相似壽命的復(fù)雜產(chǎn)品可靠性評(píng)定方法
- 獲取機(jī)構(gòu)技術(shù)相似性的方法及裝置
- 口罩(相似)
- 臺(tái)燈(相似)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





