[發明專利]一種識別網絡小說中垃圾章節的方法及裝置有效
| 申請號: | 201310214058.1 | 申請日: | 2013-05-31 |
| 公開(公告)號: | CN104216872B | 公開(公告)日: | 2017-12-01 |
| 發明(設計)人: | 高健;牛小彬 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙)44285 | 代理人: | 王仲凱 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 網絡小說 垃圾 章節 方法 裝置 | ||
1.一種識別網絡小說中垃圾章節的方法,其特征在于,所述方法包括:
抓取網絡小說數據;
計算每一網絡小說數據的ID,所述ID用于唯一標識一網絡小說;
獲取每個ID對應的網絡小說數據的章節名稱,所述章節名稱包括章節名稱的文字信息和/或數字信息;
統計并計算相同章節名稱對應的ID數量;
識別符合預設條件的章節名稱和/或ID數量的章節為垃圾章節。
2.如權利要求1所述的方法,其特征在于,所述ID包括小說名,或者小說名和作者名。
3.如權利要求1所述的方法,其特征在于,所述計算每一網絡小說數據的ID包括:
通過MD5,計算每一網絡小說數據的ID。
4.如權利要求1所述的方法,其特征在于,所述識別符合預設條件的章節名稱和/或ID數量的章節為垃圾章節包括:
識別章節名稱大于預設長度和/或ID數量大于預設數量的章節為垃圾章節。
5.如權利要求1所述的方法,其特征在于,所述識別符合預設條件的章節名稱和/或ID數量的章節為垃圾章節包括:
識別符合預設條件的章節名稱和/或ID數量的章節為疑似垃圾章節;
將所述疑似垃圾章節的章節名稱在預設白名單中進行匹配,將與所述預設白名單中存儲的關鍵詞的匹配度小于預設閾值的章節名稱對應的疑似垃圾章節識別為垃圾章節,所述預設白名單存儲合法的關鍵詞。
6.如權利要求5所述的方法,其特征在于,所述識別符合預設條件的章節名稱和/或ID數量的章節為疑似垃圾章節之后,所述方法還包括:
將與所述預設白名單中存儲的關鍵詞的匹配度大于預設閾值的章節名稱更新至所述預設白名單中。
7.一種識別網絡小說中垃圾章節的裝置,其特征在于,所述裝置包括:
抓取單元,用于抓取網絡小說數據;
計算單元,用于計算每一網絡小說數據的ID,所述ID用于唯一標識一網絡小說;
獲取單元,用于獲取每個ID對應的網絡小說數據的章節名稱,所述章節名稱包括章節名稱的文字信息和/或數字信息;
計算單元,用于統計并計算相同章節名稱對應的ID數量;
識別單元,用于識別符合預設條件的章節名稱和/或ID數量的章節為垃圾章節。
8.如權利要求7所述的裝置,其特征在于,所述ID包括小說名,或者小說名和作者名。
9.如權利要求7所述的裝置,其特征在于,所述計算單元,用于通過MD5,計算每一網絡小說數據的ID。
10.如權利要求7所述的裝置,其特征在于,所述識別單元,用于識別章節名稱大于預設長度和/或ID數量大于預設數量的章節為垃圾章節。
11.如權利要求7所述的裝置,其特征在于,所述識別單元包括:
識別模塊,用于識別符合預設條件的章節名稱和/或ID數量的章節為疑似垃圾章節;
匹配模塊,用于將所述疑似垃圾章節的章節名稱在預設白名單中進行匹配,將與所述預設白名單中存儲的關鍵詞的匹配度小于預設閾值的章節名稱對應的疑似垃圾章節識別為垃圾章節,所述預設白名單存儲合法的關鍵詞。
12.如權利要求11所述的裝置,其特征在于,所述匹配模塊,還用于將與所述預設白名單中存儲的關鍵詞的匹配度大于預設閾值的章節名稱更新至所述預設白名單中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310214058.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電烹飪器具
- 下一篇:一種P型多晶硅溝槽結構的肖特基二極管





