[發明專利]一種基于J-W距離的中文域名相似度量方法有效
| 申請號: | 201710749659.0 | 申請日: | 2017-08-28 |
| 公開(公告)號: | CN107609059B | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 龍華;祁俊輝;邵玉斌;杜慶治 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F40/126 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 距離 中文 域名 相似 度量 方法 | ||
1.一種基于J-W距離的中文域名相似度量方法,其特征在于:
Step1:獲取待檢測域名X以及目標域名Y;
Step2:對待檢測域名X和目標域名Y以點號“.”或句號“。”分割,忽略網絡名、域名后綴,保留域名主體,并生成域名主體的中文字符集合x:{x1,x2…xp}和y:{y1,y2…yq};
Step3:根據Unicode漢字筆畫順序表,遍歷Step2中得到的域名主體中文字符集合x:{x1,x2…xp}和y:{y1,y2…yq},按照集合字符順序對每個中文字符xi,i∈[1,p]或yi,i∈[1,q]查找其對應漢字筆畫順序,根據相應編碼規則進行轉換,生成待檢測域名X域名主體的編碼字符串strx和目標域名Y域名主體的編碼字符串stry,并獲取編碼字符串strx和stry的長度lenx和leny;
Step4.1:將待檢測域名X和目標域名Y的域名主體編碼字符串strx和stry作為J-W算法的輸入,并生成檢測矩陣
Step4.2:根據公式(1)計算匹配窗口值MW:
Step4.3:由檢測矩陣及匹配窗口值MW,根據相關規則,計算匹配字符數m和匹配字符換位數n;對于匹配字符數m的計算,若編碼字符串strx和stry中相同字符相差距離小于匹配窗口值MW,則視為該字符匹配;在匹配過程中,需排除被匹配過的字符,若找到匹配字符,則需跳出此次匹配,進行下一字符的匹配;
對于匹配字符換位數n的計算,則需看編碼字符串strx和stry中對于匹配字符集的順序是否一致,若不一致,則換位數目的一半即為匹配字符換位數n;匹配字符數m和匹配字符換位數n應滿足以下要求:
Step4.4:由Step4.3計算所得匹配字符數m和匹配字符換位數n,根據公式(2)計算待檢測域名X和目標域名Y的域名主體編碼字符串strx和stry的Jaro Distance:
Step4.5:獲取待檢測域名X和目標域名Y的域名主體編碼字符串strx和stry的最長公共子串strxy,并得到其長度lenxy;
Step4.6:根據公式(3)進一步計算待檢測域名X和目標域名Y的域名主體編碼字符串strx和stry的Jaro-Winkler Distance:
其中,bt為是否需要進一步計算的閾值,p為縮放因子。
2.根據權利要求1所述的基于J-W距離的中文域名相似度量方法,其特征在于:所述步驟Step1中的待檢測域名X以及目標域名Y,可以為一級域名或二級域名。
3.根據權利要求1所述的基于J-W距離的中文域名相似度量方法,其特征在于:所述步驟Step2中如果待檢測域名X以及目標域名Y是一級域名,則只需忽略域名后綴。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710749659.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種銷售方法、機器人客服端、人工客服端及用戶端
- 下一篇:資源推薦方法及裝置





