[發明專利]一種基于深度學習的網頁類型智能識別方法及系統有效
| 申請號: | 201810815713.1 | 申請日: | 2018-07-20 |
| 公開(公告)號: | CN109241383B | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 汪敏;劉鵬飛;李倫涼;李緒祥;王靜;尹娜 | 申請(專利權)人: | 北京開普云信息科技有限公司;開普云信息科技股份有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100083 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁類型 預處理 智能識別 網頁 學習 智能識別系統 訓練集數據 測試網頁 網頁類別 網頁數據 學習算法 智能分類 準確率 構建 搜集 測試 | ||
1.一種基于深度學習的網頁類型智能識別方法,該方法包括以下步驟:
S1、輸入待分類識別網頁;
S2、深度學習分類模型對輸入網頁進行分類識別,得到所述待分類識別網頁的類別信息;
所述深度學習分類模型通過以下步驟得到:
S2.1、獲取標記有類別的網頁數據集;
S2.2、篩選訓練網頁集和測試網頁集;
S2.3、對網頁進行預處理操作;
S2.4、深度學習分類模型計算;
S2.5、深度學習模型驗證;
所述對網頁進行預處理操作,進一步包括:
S2.3.1、獲取網頁的HTML源代碼;
S2.3.2、網頁凈化:把一個網頁中對分類沒有影響或者影響分類效果的部分內容去掉;
S2.3.3、文本序列化處理:將輸入的網頁文本的標簽、短鏈接文字進行保留,將超過一定長度L的長鏈接文字使用字母進行標記,將長度超過M字的文本的每個字用特殊符號代替,將超過長度N的文本用N個特殊符號代替,得到處理后的文本序列;其中,對長鏈接文字進行標記的字母與特殊符號不同,L、M、N為整數,L<M<N;
S2.3.4、矩陣轉換:將文本序列轉變為一個二維矩陣。
2.根據權利要求1所述基于深度學習的網頁類型智能識別方法,其特征在于:所述深度學習分類模型計算,進一步包括:
S2.4.1、深度學習算法選擇;
S2.4.2、設置訓練參數;
S2.4.3、得到深度學習分類模型。
3.根據權利要求2所述基于深度學習的網頁類型智能識別方法,其特征在于:所述深度學習算法為卷積神經網絡算法CNN;訓練參數包括每次迭代誤差取1%,學習率取0.001。
4.根據權利要求1所述基于深度學習的網頁類型智能識別方法,其特征在于:所述深度學習模型驗證包括:將測試網頁數據輸入學習得到的深度學習分類模型,判斷模型輸出的結果是否與測試網頁的類型一致;如果不一致,則驗證不通過,則將測試集數據假如訓練集繼續訓練,同時,選擇新的測試集;如果一致則通過驗證,得到最終的深度學習分類模型。
5.一種基于深度學習的網頁類型智能識別系統,該系統包括以下模塊:
輸入模塊:輸入待分類識別網頁;
類型識別模塊:深度學習分類模型對輸入網頁進行分類識別,得到所述待分類識別網頁的類別信息;
所述深度學習分類模型進一步由以下模塊構成:
數據獲取模塊:獲取標記有類別的網頁數據集;
篩選模塊:篩選訓練網頁集和測試網頁集;
預處理模塊:對網頁進行預處理操作;
模型計算模塊:深度學習分類模型計算;
模型驗證模塊:深度學習模型驗證;
所述數據預處理模塊還包括:
源碼獲取子模塊:獲取網頁的HTML源代碼;
網頁凈化子模塊:把一個網頁中對分類沒有影響或者影響分類效果的部分內容去掉;
文本序列化子模塊:將輸入的網頁文本的標簽、短鏈接文字進行保留,將超過一定長度L的長鏈接文字使用字母進行標記,將長度超過M字的文本的每個字用特殊符號代替,將超過長度N的文本用N個特殊符號代替,得到處理后的文本序列;其中,對長鏈接文字進行標記的字母與特殊符號不同,L、M、N為整數,L<M<N;
矩陣轉換子模塊:將文本序列轉變為一個二維矩陣。
6.根據權利要求5所述基于深度學習的網頁類型智能識別系統,其特征在于:所述模型計算模塊,進一步包括:
算法選擇子模塊:深度學習算法選擇;
參數設置子模塊:設置訓練參數;
模型輸出子模塊:得到深度學習分類模型。
7.根據權利要求6所述基于深度學習的網頁類型智能識別系統,其特征在于:所述算法選擇子模塊選擇的深度學習算法為卷積神經網絡算法CNN;所述參數設置子模塊設定的訓練參數包括每次迭代誤差取1%,學習率取0.001。
8.根據權利要求5所述基于深度學習的網頁類型智能識別系統,其特征在于:所述模型驗證模塊進一步包括:將測試網頁數據輸入學習得到的深度學習分類模型,判斷模型輸出的結果是否與測試網頁的類型一致;如果不一致,則驗證不通過,則將測試集數據假如訓練集繼續訓練,同時,選擇新的測試集;如果一致則通過驗證,得到最終的深度學習分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京開普云信息科技有限公司;開普云信息科技股份有限公司,未經北京開普云信息科技有限公司;開普云信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810815713.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息匹配方法及裝置
- 下一篇:一種科研信息的可視化方法及裝置





