[發明專利]一種資源結構化鏈接的信息快速分類方法有效
| 申請號: | 201810635588.6 | 申請日: | 2018-06-20 |
| 公開(公告)號: | CN108875019B | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 周泓;潘舒新;朱全銀;李翔;高尚兵;胡榮林;馮萬利 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F16/958;G06F40/47;G06F16/31 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 223003 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 資源 結構 鏈接 信息 快速 分類 方法 | ||
1.一種資源結構化鏈接的信息快速分類方法,其特征在于,包括如下步驟:
(1)統計文本語料庫中的詞匯,并將每個詞匯表示為一個唯一的id號,設置詞匯的長度,將所有的詞匯映射為具有固定長度的id序列,使用卷積神經網絡對文本語料庫中的訓練集進行訓練,得到基于卷積神經網絡的文本分類器CNN-CLA;
(2)統計待分類的資源結構化鏈接中的“/”和“.”的數量,將資源結構化鏈接進行切分,使用第三方翻譯接口對切分的數據進行英-漢轉換,將翻譯后的數據放入CNN-CLA中進行分類,得到待分類資源結構化鏈接的分類詞集;
(3)設定分類詞閾值,統計每一個待分類資源結構化鏈接的分類詞數量,如果分類詞數量小于閾值,則使用腳本爬取資源結構化鏈接的網頁內容,并使用CNN-CLA對網頁進行分類,如果分類詞數量大于閾值,將分類詞進行倒序排序,得到待分類資源結構化鏈接的分類結果。
2.根據權利要求1所述的一種資源結構化鏈接的信息快速分類方法,其特征在于,所述步驟(1)中得到基于卷積神經網絡的文本分類器CNN-CLA的具體步驟如下:
(1.1)定義文本分類集;
(1.2)統計訓練集中的詞匯,并為每個詞匯分配具有唯一屬性的id號;
(1.3)為文本分類集中的每一個分類分配具有唯一性質的id號;
(1.4)設定詞匯的長度,將所有的訓練集詞匯映射為具有固定長度的id序列;
(1.5)設定CNN的詞向量維度、序列長度、卷積核數量、總迭代次數;
(1.6)使用CNN對訓練集進行訓練,得到基于卷積神經網絡的文本分類器CNN-CLA。
3.根據權利要求2所述的一種資源結構化鏈接的信息快速分類方法,其特征在于,所述步驟(2)中得到待分類資源結構化鏈接的分類詞集的具體步驟如下:
(2.1)定義待分類資源結構化鏈接地址集;
(2.2)將待分類資源結構化鏈接按照“.”和“/”進行切分;
(2.3)使用第三方翻譯接口,對切分后的數據進行英-漢轉換;
(2.4)將翻譯后的數據與原始數據相交然后做差,得到待分類資源結構化鏈接詞匯集;
(2.5)使用CNN-CLA對待分類資源結構化鏈接詞匯集進行分類,得到待分類資源結構化鏈接分類詞集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810635588.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





