[發明專利]一種識別網絡小說中垃圾章節的方法及裝置有效
| 申請號: | 201310214058.1 | 申請日: | 2013-05-31 |
| 公開(公告)號: | CN104216872B | 公開(公告)日: | 2017-12-01 |
| 發明(設計)人: | 高健;牛小彬 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙)44285 | 代理人: | 王仲凱 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 網絡小說 垃圾 章節 方法 裝置 | ||
技術領域
本發明屬于計算機技術領域,尤其涉及一種識別網絡小說中垃圾章節的方法及裝置。
背景技術
網絡小說是一種新興的小說體裁,隨著網絡的快速發展而出現,網絡小說以網絡為基礎平臺,網絡小說作者在小說網站發布小說,并不斷對小說進行更新,以使網絡讀者進行閱讀,其特點為風格自由,文體不限,發表閱讀方式較為簡單。然而,很多網絡小說中包括很多的垃圾章節,這些垃圾章節的內容與小說內容本身并不相干,例如:網站廣告、作者廣告、新書推薦等,十分影響小說的閱讀。
現有技術,通常采用人工查詢或者關鍵字查詢的方式,去除網絡小說中的垃圾章節,然而,對于人工查詢方式,查詢速度較慢,當網絡小說數量較多的時候,需要花費大量的人工成本,花費很長時間去處理查找垃圾章節,因此,人工查詢方式查詢速度慢,無法及時有效的發現垃圾章節;而使用關鍵字進行查詢的方式,雖然可以發現包括預設垃圾關鍵詞的網絡小說,但由于網絡小說更新速度很快,小說中的垃圾關鍵字也不斷更新,因此,關鍵字查詢方式也無法及時發現網絡小說中的垃圾章節。綜上,現有技術無法及時、有效的去除網絡小說中垃圾章節。
發明內容
本發明實施例的目的在于提供一種識別網絡小說中垃圾章節的方法,旨在解決現有技術無法及時、有效的去除網絡小說中垃圾章節問題。
為了實現上述目的,本發明實施例提供如下技術方案:
本發明第一方面提供了一種識別網絡小說中垃圾章節的方法,所述方法包括:
抓取網絡小說數據;
計算每一網絡小說數據的ID,所述ID用于唯一標識一網絡小說;
獲取每個ID對應的網絡小說數據的章節名稱;
統計并計算相同章節名稱對應的ID數量;
識別符合預設條件的章節名稱和/或ID數量的章節為垃圾章節。
本發明第二方面提供了一種識別網絡小說中垃圾章節的裝置,所述裝置包括:
抓取單元,用于抓取網絡小說數據;
計算單元,用于計算每一網絡小說數據的ID,所述ID用于唯一標識一網絡小說;
獲取單元,用于獲取每個ID對應的網絡小說數據的章節名稱;
計算單元,用于統計并計算相同章節名稱對應的ID數量;
識別單元,用于識別符合預設條件的章節名稱和/或ID數量的章節為垃圾章節。
本發明實施例與現有技術相比,有益效果在于:抓取網絡小說數據,計算每一網絡小說數據的ID,所述ID用于唯一標識一本網絡小說,獲取每個ID對應的網絡小說數據的章節名稱,統計并計算相同章節名稱對應的ID數量,識別符合預設條件的章節名稱和/或ID數量的章節為垃圾章節。使得不需要人工參與,即可實現可以及時、有效識別網絡小說中垃圾章節。
附圖說明
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本發明實施例一提供的識別網絡小說中垃圾章節的方法的實現的流程圖;
圖2是本發明實施例二提供的識別網絡小說中垃圾章節的方法的實現的流程圖;
圖3是本發明實施例三提供的識別網絡小說中垃圾章節的裝置的結構圖;
圖4是本發明實施例四提供的識別網絡小說中垃圾章節的裝置的結構圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
本實施例中,通過計算每一網絡小說數據的ID,統計并計算相同章節名稱對應的ID數量,識別符合預設條件的章節名稱和/或ID數量的章節為垃圾章節。
以下結合具體實施例對本發明的實現進行詳細描述:
實施例一
圖1示出了本發明實施例一提供的識別網絡小說中垃圾章節的方法的實現的流程圖,詳述如下:
在S101中,抓取網絡小說數據;
在S102中,計算每一網絡小說數據的標識(Identify,ID),所述ID用于唯一標識一網絡小說;
本實施例中,優選的所述ID為小說名,或者小說名和作者名,其它的可以唯一標識一本小說的數據均可以作為小說的網絡數據。
在S103中,獲取每個ID對應的網絡小說數據的章節名稱;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310214058.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電烹飪器具
- 下一篇:一種P型多晶硅溝槽結構的肖特基二極管





