[發明專利]一種基于J-W距離的中文域名相似度量方法有效

申請號：	201710749659.0	申請日：	2017-08-28
公開（公告）號：	CN107609059B	公開（公告）日：	2020-10-20
發明（設計）人：	龍華;祁俊輝;邵玉斌;杜慶治	申請（專利權）人：	昆明理工大學
主分類號：	G06F16/903	分類號：	G06F16/903;G06F40/126
代理公司：	暫無信息	代理人：	暫無信息
地址：	650093 云***	國省代碼：	云南;53
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于距離中文域名相似度量方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及一種基于J?W距離的中文域名相似度量方法，屬于網絡安全技術領域。本發明通過Unicode漢字筆畫順序表將漢字編碼后映射為一串數字型字符串，同時創新性地引入機器學習領域的Jaro?Winler Distance算法，與最長公共子串相結合，進而對中文域名進行相似度量。首先獲取待檢測域名和目標域名，對其初始化生成域名主體；其次根據Unicode漢字筆畫順序表對域名主體進行編碼處理，生成數字型字符串，并作為Jaro?Winler Distance算法的輸入生成檢測矩陣；然后與數字型字符串最長公共子串相結合，根據相關規則計算數字型字符串的相似度，此數字型字符串的相似度可以有效代表漢字之間的相似度。

技術領域

本發明涉及一種基于J-W距離的中文域名相似度量方法，屬于網絡安全技術領域。

背景技術

隨著互聯網的發展和普及，中文域名也逐步成為國際化域名的重要組成部分，與此同時，針對中文域名的域名仿冒攻擊日漸增多，域名的仿冒形式也日益復雜。由于中文漢字存在很多形近字，再加上人的快速閱讀習慣，難免會在一定程度上造成視覺的錯誤判斷。

傳統的域名相似度量方法，只能適用于英文域名的相似度量，而對于中文域名來講，效果并不顯著。而且，目前國內對中文域名相似度量的相關研究還比較欠缺，研究成果也比較少。

目前大多數中文域名相似度量方法，是將中文漢字先按照單字相似，再按照整體相似計算其相似度，那么這類方法不管是從時間復雜度來講，或是從準確性來講，都有一定的缺陷，而且對于如何計算其單字相似度或整體相似度也沒有具體的實施算法。

發明內容

本發明要解決的技術問題是針對現有技術的局限和不足，提供一種基于J-W距離的中文域名相似度量方法，通過Unicode漢字筆畫順序表將漢字編碼后映射為一串數字型字符串，同時創新性地引入機器學習領域的Jaro-Winler Distance算法，與最長公共子串相結合，以適應對數字型字符串的相似度量，此數字型字符串的相似度可以有效代表漢字之間的相似度。本發明相對現階段中文域名相似度量方法而言，主要解決了現有技術準確性不足、效率差等現象，致力于增加目前中文域名相似度量的準確性和時效問題。

本發明的技術方案是：一種基于J-W距離的中文域名相似度量方法，具體步驟為：

Step1：獲取待檢測域名X以及目標域名Y；

Step2：對待檢測域名X和目標域名Y以點號“.”或句號“。”分割，忽略網絡名、域名后綴，保留域名主體，并生成域名主體的中文字符集合x:{x₁,x₂…x_p}和y:{y₁,y₂…y_q}；

Step3：根據Unicode漢字筆畫順序表，遍歷Step2中得到的域名主體中文字符集合x:{x₁,x₂…x_p}和y:{y₁,y₂…y_q}，按照集合字符順序對每個中文字符x_i,i∈[1,p]或y_i,i∈[1,q]查找其對應漢字筆畫順序，根據相應編碼規則進行轉換，生成待檢測域名X域名主體的編碼字符串str_x和目標域名Y域名主體的編碼字符串str_y，并獲取編碼字符串str_x和str_y的長度len_x和len_y；