[發明專利]域名分類方法、設備及計算機可讀存儲介質在審
| 申請號: | 202110305374.4 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN113076453A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 張偉哲;董國忠;張賓;喬延臣;艾建文;譚帥帥;霍鵬磊 | 申請(專利權)人: | 鵬城實驗室 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06F16/951;G06N20/00 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 陳小娟 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 域名 分類 方法 設備 計算機 可讀 存儲 介質 | ||
1.一種域名分類方法,其特征在于,所述域名分類方法包括:
獲取待分類域名,提取所述待分類域名的頁面標簽特征;
將所述頁面標簽特征輸入預訓練的具有遞歸正則化功能的目標域名分類模型,其中,所述目標域名分類模型中已定義具有層次結構的域名類別體系;
基于所述目標域名分類模型,分析所述頁面標簽特征相關的若干域名類型對應在所述域名類別體系上的層次依賴關系;
利用所述層級依賴關系并結合正則化的遞歸結構進行模型參數估計,以基于模型參數估計后的域名分類模型得到所述待分類域名的目標分類標簽。
2.如權利要求1所述的域名分類方法,其特征在于,所述基于所述目標域名分類模型,分析所述頁面標簽特征相關的若干域名類型對應在所述域名類別體系上的層次依賴關系的步驟包括:
使用所述目標域名分類模型中的凸損失函數對若干所述域名類型進行層次分類,以得到所述層次依賴關系。
3.如權利要求2所述的域名分類方法,其特征在于,所述利用所述層級依賴關系并結合正則化的遞歸結構進行模型參數估計的步驟包括:
基于所述目標域名分類模型中的遞歸正則化方式,將所述層次依賴關系融入模型參數的正則化結構中;
基于所述目標域名分類模型中的凸損失函數、調節參數以及所述正則化結構進行模型參數估計。
4.如權利要求1所述的域名分類方法,其特征在于,所述獲取待分類域名的步驟之前,還包括:
爬取指定網站中的域名分頁列表,遍歷所述域名分頁列表中每一域名分頁獲取樣本域名地址、樣本域名類型與樣本域名描述信息,以作為域名樣本信息;
根據所述樣本域名地址與所述樣本域名類型,將域名類型劃分為大類與亞類兩個層次,以定義所述域名類別體系;
根據所述域名類別體系將所述域名樣本信息構建為域名分類數據集,并基于神經網絡模型架構對所述域名分類數據集進行訓練,得到所述目標域名分類模型,其中,所述目標域名分類模型包括輸入層、嵌入層、編碼層和輸出層。
5.如權利要求4所述的域名分類方法,其特征在于,所述基于神經網絡模型架構對所述域名分類數據集進行訓練,得到所述目標域名分類模型的步驟包括:
將所述域名分類數據集按照預設比例隨機切分為訓練集、驗證集和測試集;
對所述訓練集進行訓練,得到初始域名分類模型;
利用所述驗證集驗證所述初始域名分類模型是否過擬合;
若是,則判斷所述初始域名分類模型在所述驗證集上的正確率是否滿足預設第一標準;
若是,則判斷所述初始域名分類模型在所述測試集上的正確率是否滿足預設第二標準;
若是,則將所述初始域名分類模型作為所述目標域名分類模型。
6.如權利要求5所述的域名分類方法,其特征在于,所述利用所述驗證集驗證所述初始域名分類模型是否過擬合的步驟之后,還包括:
若否,則繼續對所述初始域名分類模型進行訓練;
所述判斷所述初始域名分類模型在所述驗證集上的正確率是否滿足預設第一標準的步驟之后,還包括:
若否,則調整所述初始域名分類模型的模型參數,并重新訓練模型參數調整后的初始域名分類模型;
所述判斷所述初始域名分類模型在所述測試集上的正確率是否滿足預設第二標準的步驟之后,還包括:
若否,則對所述域名分類數據集進行重劃分,以基于重劃分后的域名分類數據集進行模型訓練。
7.如權利要求5所述的域名分類方法,其特征在于,所述對所述訓練集進行訓練,得到初始域名分類模型的步驟包括:
在所述輸入層,將所述樣本域名與所述樣本域名描述信息轉換為特定形式的輸入文本序列,以將所述輸入文本序列輸入所述嵌入層;
在所述嵌入層,對所述輸入文本序列進行詞嵌入得到詞嵌入結果,以將所述詞嵌入結果輸入所述編碼層;
在所述編碼層,利用預設詞袋模型捕獲所述詞嵌入結果的局部上下文信息,以供預設線性分類器基于所述局部上下文信息得到初始分類結果,將所述初始分類結果輸入所述輸出層;
在所述輸出層,基于所述初始分類結果進行模型參數估計,以得到所述初始域名分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鵬城實驗室,未經鵬城實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110305374.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種拋光打磨的設備
- 下一篇:一種光電催化劑及其制備方法





