[發明專利]一種基于關鍵字加權算法的輿情熱詞發現方法在審
| 申請號: | 201610123465.5 | 申請日: | 2016-03-03 |
| 公開(公告)號: | CN107153658A | 公開(公告)日: | 2017-09-12 |
| 發明(設計)人: | 趙一昕;李華康;楊天若;楊天楚 | 申請(專利權)人: | 常州普適信息科技有限公司;常州市公共交通集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 213000 江蘇省常州市新北區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵字 加權 算法 輿情 發現 方法 | ||
1.一個輿情語料庫,存儲從互聯網上抓取的經過預處理海量輿情信息。
2.一個過濾詞庫,分為詞性過濾表和詞義過濾表兩部分,用以對分詞結果中助詞、介詞、連詞等虛詞、表示修飾的形容詞和表征程度的副詞、數詞和量詞的搭配等詞性以及并無實際含義的詞進行過濾。
3.一個IDF表,用以存儲詞匯或短語的反文檔頻率,并且實現動態更新。
4.一個詞性權重表,用以存儲不同詞性的權重,權重等級取值為1-5,依次遞增。
5.輿情信息預處理模塊,在對相關輿情網頁進行采集后,過濾網頁中圖片、廣告、鏈接等噪音數據,提取出輿情新聞的標題和內容,將其存入輿情語料庫,為后續文本處理提供基礎。
6.文本分詞模塊,對語料庫中的文本采用基于詞典和統計相結合的方法進行分詞,并且對獲得的每個詞或短語進行詞性標注,實現對新詞和未登錄詞的識別。
7.噪音過濾模塊,參照過濾詞庫對獲得的分詞集合進行詞性、詞義比對,對出現在過濾詞庫中的詞和短語,不再作為候選熱點詞匯參與后續計算。
8.權值計算模塊,對經過噪音過濾模塊篩選得到的候選熱點詞或短語參照詞性權重表獲取權重,同時參照IDF表獲取其對應的反文檔頻率 ,根據這兩個值,通過加權式TF-IDF計算方法生成該詞的熱度值。
9.熱詞提取模塊,維護一個候選熱點列表,該表以鍵值對的形式存儲了詞與其對應的熱度值,依次將經過熱度計算處理的候選詞插入該列表,如果該詞已存在,則對該詞的熱度值進行更新,所有候選熱點詞匯處理完畢后,對列表中熱詞以降序排序,即可得到一段時間內的熱詞集合。
10.IDF表更新模塊,每次處理完畢后,對IDF表根據增量式的IDF計算公式進行更新,以克服海量數據下反文檔頻率更新周期長所引起的熱詞識別不準確的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于常州普適信息科技有限公司;常州市公共交通集團公司,未經常州普適信息科技有限公司;常州市公共交通集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610123465.5/1.html,轉載請聲明來源鉆瓜專利網。





