[發明專利]一種基于爬蟲和文本聚類分析的網絡輿情分析系統在審
| 申請號: | 201610885652.7 | 申請日: | 2016-10-10 |
| 公開(公告)號: | CN106649498A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 曹衛星 | 申請(專利權)人: | 合肥紅珊瑚軟件服務有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京和信華成知識產權代理事務所(普通合伙)11390 | 代理人: | 胡劍輝 |
| 地址: | 232000 安徽省合肥市高新*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 爬蟲 文本 聚類分析 網絡 輿情 分析 系統 | ||
技術領域
本發明涉及計算機技術領域,特別是涉及一種基于爬蟲和文本聚類分析的網絡輿情分析系統。
背景技術
現代科學技術每天都在改變著世界,影響著人們的生活和工作方式。尤其是近年來,移動互聯網、大數據、云計算等新型技術的迅猛發展,人們在網絡空間從事的活動范圍不斷擴大,微博、微信、微視等新的互聯網應用模式出現,使得人們已經進入了大數據時代和信息消費時代,隨著Web2.0技術的不斷發展,涌現出各類基于社會關系和群體智慧特征的網絡平臺,如搜索引擎、博客、微信、微博、論壇等,互聯網表現出了顯著的社會化特征。人們可以通過多種網絡平臺獲取視頻、圖像、文本、聲音等多媒體資源,并進行傳播、發布從中國互聯網絡信息中心的《中國互聯網絡發展狀況統計報告》中看出,截止2014年6月,中國網民數量已達6.32億,互聯網普及率達46.9%,較2013年底提高了1.1個百分點。其中手機上網的網民比例占83.4%,相比2013年底上升了2.4個百分點,首次超越傳統PC上網的比例(80.9%)。互聯網的普及率呈現快速上升趨勢,尤其是移動互聯網的發展將帶動整體互聯網發展,網民生活已全面“網絡化”。
互聯網規模的不斷擴大,隨之而來的是網絡信息資源的爆炸式增長,但面對互聯網浩如煙海的信息資源,如何有效地快速獲取自己所需或用戶感興趣的內容,真正使互聯網上海量的網絡信息資源得以充分利用,并推動信息消費,依然是一個急需解決的難題。通過深入分析互聯網搜索相關技術,問題主要體現在以下幾個方面:
1)信息獲取的冗余程度較高。在日常工作生活中,不難發現同類信息或表述相同的網絡新聞、資訊等信息在各大互聯網站反復的出現。這種大量同類信息的重復出現,導致用戶在獲取所需精準信息的時間過長,進一步影響用戶的體驗心理。在信息化水平快速增長的今天,對精準信息快速準確的把握,才能有效充分利用信息的價值,促進信息消費。因此,幫助用戶去除網絡冗余信息,提高信息檢索速度,獲取精準信息,節約時間是一個需解決的問題。
2)信息獲取的深度不夠。互聯網上的資源雖然非常豐富,獲取信息的方式也多樣化,但是,對于特定領域內的信息的獲取,沒有相關領域知識背景的人卻非常困難,更難以獲取其所需的精準信息。另外即便是獲取了相關領域內的信息資源,一般大眾也難以對該信息的有效性、精準性等進行識別,這些都在不同程度上影響了人們獲取信息的深度。
3)信息獲取的個性化程度不夠。面對海量的互聯網絡信息資源,不同用戶有著不同的搜索需求,用戶偏好的不同,用戶背景的不同以及對同一信息資源認識理解程度的不同,需要搜索引擎技術的不斷創新,以提高搜索精準性,優化用戶體驗。當前,信息搜索服務較少考慮用戶的偏好以及個性化需求,僅僅通過用戶搜索的關鍵詞對檢索結果進行粗略的過濾。因此,如何快速有效的運用用戶的偏好或個人興趣和愛護來搜索用戶所需的信息資源,使信息的搜索過程更加智能化,更加個性化,給用戶以最精準、最符合其所需的信息是一個非常值得關注的問題,也是一個急需解決的問題。
4)信息獲取的用戶體驗不夠好。隨著互聯網絡尤其是移動互聯網的快速發展,各種應用分發平臺、社交網站、微信微博等信息來源的多樣化,僅依靠傳統的搜索引擎無法對這些多樣化的海量信息進行有效整合、分類、以及精準定位,制約了用戶體驗的上升,也影響了用戶黏性。因此,如何創新應用分發模式、深度發展語義搜索、智能搜索、個性化搜索等相關技術,打破搜索APP之間的信息壁壘,提高用戶體驗水平,增強用戶黏性,實現信息獲取的智能化和個性化,是一個迫切需要解決的問題。因此,為了解決這種“信息豐富而知識匱乏”的問題,本發明深入分析互聯網爬蟲、文本挖掘以及興趣點數據處理等相關技術,進而設計一個基于網絡爬蟲和文本處理的個性化搜索原型系統,目標是為用戶提供有效且精準的個性化信息搜索或推送服務,最后基于該個性化搜索原型系統,以“網絡輿情分析”為應用場景,來挖掘網絡輿情趨勢、破解網絡反恐、及時發現網絡不良言論等,更好地掌控正確社會輿論的前進導向,為當前國家復雜嚴峻的公共安全、社會穩定提供一定的技術參考。
發明內容
本發明的目的是提供一種基于爬蟲和文本聚類分析的網絡輿情分析系統。
本發明的目的可以通過以下技術方案實現:
一種基于爬蟲和文本聚類分析的網絡輿情分析系統,包括支撐層、數據層、服務層、功能層;
所述的功能層包括網頁信息采集模塊、數據預處理模塊、信息檢索模塊、檢索信息分析模塊、歸檔管理模塊、興趣點數據統計模塊、系統管理模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥紅珊瑚軟件服務有限公司,未經合肥紅珊瑚軟件服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610885652.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁展示方法及裝置
- 下一篇:沙發套件(時尚真皮沙發)





