[發明專利]一種動態輿情關鍵詞抽取系統和方法有效
| 申請號: | 201210586409.7 | 申請日: | 2012-12-28 |
| 公開(公告)號: | CN103186662A | 公開(公告)日: | 2013-07-03 |
| 發明(設計)人: | 趙樹合;楊小豹;鞏在飛 | 申請(專利權)人: | 中聯競成(北京)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京元中知識產權代理有限責任公司 11223 | 代理人: | 王明霞 |
| 地址: | 100085 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 輿情 關鍵詞 抽取 系統 方法 | ||
技術領域
本發明涉及網絡信息處理技術領域,具體涉及一種動態輿情關鍵詞抽取系統和方法。
背景技術
網絡輿情監控是指通過對網絡各類信息匯集、分類、整合、篩選等技術處理,再形成對網絡熱點、動態、網民意見等實時統計報表的一個過程。
網絡輿情監控的背景
隨著互聯網的快速發展,網絡媒體作為一種新的信息傳播形式,已深入人們的日常生活。網友言論活躍已達到前所未有的程度,不論是國內還是國際重大事件,都能馬上形成網上輿論,通過這種網絡來表達觀點、傳播思想,進而產生巨大的輿論壓力,達到任何部門、機構都無法忽視的地步??梢哉f,互聯網已成為思想文化信息的集散地和社會輿論的放大器。
網絡輿情是通過互聯網傳播的公眾對現實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點,主要通過BBS論壇、博客、新聞跟貼、轉貼等實現并加以強化。當今,信息傳播與意見交互空前迅捷,網絡輿論的表達訴求也日益多元。如果引導不善,負面的網絡輿情將對社會公共安全形成較大威脅。對相關政府部門來說,如何加強對網絡輿論的及時監測、有效引導,以及對網絡輿論危機的積極化解,對維護社會穩定、促進國家發展具有重要的現實意義,也是創建和諧社會的應有內涵。
“網絡輿情監測系統”是征對在一定的社會空間內,圍繞中介性社會事件的發生、發展和變化,民眾對社會管理者產生和持有的社會政治態度于網絡上表達出來意愿集合而進行的計算機監測的系統統稱。
“網絡輿情”是較多群眾關于社會中各種現象、問題所表達的信念、態度、意見和情緒等等表現的總和。網絡輿情形成迅速,對社會影響巨大,加強互聯網信息監管的同時,組織力量開展信息匯集整理和分析,對于及時應對網絡突發的公共事件和全面掌握社情民意很有意義。
輿情監控系統的一般工作流程如下:
1.信息采集:互聯網信息(新聞、論壇等)的實時監測、采集、內容提取、下載及排重。
2.信息處理:對抓取的內容進行自動分類聚類、關鍵詞過濾、主題檢測、專題聚焦等。
3.信息服務:將采集并分析整理后的信息直接為用戶或為用戶輔助編輯提供信息服務。
一般的輿情監控系統都會有一個對網絡信息進行處理的時候都會有一個關鍵詞過濾的過程,以關鍵詞突出并標記本網絡信息的類別,或用關鍵詞當做信息的標簽。因此,需要有一種關鍵詞抽取的方法,來準確識別網絡文本信息或視頻信息中的關鍵詞。
發明內容
本發明的目的是提供一種能夠快速準確查找網絡信息關鍵詞的動態輿情關鍵詞抽取系統和方法。
為達到以上目的,本發明采用的技術方案是:一種動態輿情關鍵詞抽取系統,其特征在于:包括抽取模塊,映射模塊,分詞空間,計算模塊,標記模塊,抽取模塊以用戶輸入的關鍵詞進行目標信息的樣本抽取,映射模塊將抽取目標信息的文本信息映射到分詞空間中進行分詞處理,計算模塊將分詞處理后的中文詞匯表達為向量,根據中文詞匯的權重系數以及詞頻對中文詞匯進行權重指數的計算,選取出標簽關鍵詞傳送至標記模塊,進行信息的標簽關鍵詞標記,并生成一索引文件。
所述的目標信息是用戶以特定關鍵詞搜索到的網頁文本信息,或者視頻轉化文本后的文本信息。
所述的映射模塊將文本信息映射到分詞空間中,采用中文分詞技術對文本中的整句話進行分詞處理,分成若干中文詞匯。
所述的映射模塊將分詞后的中文詞匯進行預處理,去掉高頻詞匯。
所述的高頻詞匯包括“的”一類的無實際意義的副詞、介詞、連詞、助詞、嘆詞等虛詞。
所述的計算模塊將對去掉高頻詞后的中文分詞結果進行信息熵計算,所述的信息熵計算即將中文分詞結果的單個詞語計算器權重系數后表達為向量,抽取其特征向量。
所述的權重系數中,是根據中文詞匯的詞性、出現位置、詞頻、地名、人名、分詞特征、專有名詞等要素自動給出的,各要素的權重系數是由用戶結合樣本的特點設定的。
所述的計算模塊將目標信息中文分詞處理后的包含的所有中文詞匯的權重指數進行歸一化處理,并根據歸一化后的權重指數進行排序,并篩選出標簽關鍵詞。
所述的標記模塊根據目標信息的標簽關鍵詞對目標信息進行關鍵詞標記,統計成一個方便用戶查詢的索引文件。
具有上述的一種動態輿情關鍵詞抽取系統的動態輿情關鍵詞抽取方法,其特征在于:包括如下步驟:
(1)、用戶輸入查詢關鍵詞至抽取模塊,抽取模塊搜索出目標信息,并生成目標信息的網頁文本信息或者是視頻轉化文本信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中聯競成(北京)科技有限公司,未經中聯競成(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210586409.7/2.html,轉載請聲明來源鉆瓜專利網。





