[發(fā)明專利]一種輿情監(jiān)測的方法、裝置及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911404334.4 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111160019B | 公開(公告)日: | 2023-08-15 |
| 發(fā)明(設計)人: | 董浩俊;胡坤;房啟麾;趙文奇 | 申請(專利權)人: | 中國聯(lián)合網(wǎng)絡通信集團有限公司;聯(lián)通系統(tǒng)集成有限公司;聯(lián)通(黑龍江)產(chǎn)業(yè)互聯(lián)網(wǎng)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/169;G06F16/35 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權代理有限公司 11205 | 代理人: | 張寧;劉芳 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 輿情 監(jiān)測 方法 裝置 系統(tǒng) | ||
1.一種輿情監(jiān)測的方法,其特征在于,包括:
獲取多個原始輿情信息;
對所述原始輿情信息進行去標簽、清洗處理,得到輿情處理信息;
將所述輿情處理信息進行緩存,通過文本分析進行識別標注,得到與所述原始輿情信息對應的標注輿情信息;
所述通過文本分析進行識別標注,得到與所述原始輿情信息對應的標注輿情信息包括:對輿情處理信息進行分詞,將分詞后的輿情處理信息在地域詞典中進行匹配,若匹配成功則對所述輿情處理信息進行地域標注,得到地域輿情處理信息;根據(jù)所述地域輿情處理信息出現(xiàn)的位置以及頻次,獲得所述地域輿情處理信息對應的評分;根據(jù)所述評分的大小依次進行排序,并將最高評分對應的所述地域輿情處理信息進行地域標注,得到與原始輿情信息對應的標注輿情信息;所述地域詞典通過獲取地域詞匯,并將所述地域詞匯整理構建獲得;
獲取輿情處理信息中的摘要文本信息,提取、標注所述摘要文本信息中的轉折句,得到與所述原始輿情信息對應的標注輿情信息;
對所述摘要文本信息中每個摘要語句求取相似性;
獲取最高相似性對應的摘要語句并刪除,得到保留摘要語句并進行標注,得到與所述原始輿情信息對應的標注輿情信息;
其中,所述對所述摘要文本信息中每個摘要語句求取相似性包括:采用關鍵字提取TextRank公式和相似程度計算公式對每個摘要語句求取相似性;
所述TextRank公式為:
式中,TextRank公式左邊表示一個摘要句子的權重(WS是weight_sum的縮寫),右側的求和表示每個相鄰摘要句子對本摘要句子的貢獻程度,wji表示兩個句子的相似程度,WS(Vj)代表上次迭代j的權重,Vi表示某個網(wǎng)頁,Vj表示鏈接到Vi的網(wǎng)頁,In(Vi)表示網(wǎng)頁Vi的所有入鏈的集合,Out(Vj)表示網(wǎng)頁的所有出鏈的集合,d表示阻尼系數(shù);
所述相似程度計算公式為:
式中,fi是詞在文章中的出現(xiàn)次數(shù),dl是文章長度,avgdl是文章平均長度,IDF為逆向文本頻率表示詞普遍重要性的度量,Q表示查詢Query,qi表示Q解析之后的一個語素,d表示一個搜索結果文本,k1和b均為人為設置的調節(jié)因子。
2.根據(jù)權利要求1所述的方法,其特征在于,通過文本分析進行識別標注,得到與所述原始輿情信息對應的標注輿情信息,包括:
將所述輿情處理信息劃分為第一類文本信息、第二類文本信息;
對所述第二類文本信息進行干擾項排除處理,通過機器學習模型對所述第二類文本信息進行監(jiān)督分類,獲取正向輿情信息并標注,得到與所述原始輿情信息對應的標注輿情信息;其中機器學習模型采用情感詞庫作為訓練數(shù)據(jù)集進行監(jiān)督訓練,以輸出分類為正向輿情信息的機器學習模型。
3.根據(jù)權利要求1所述的方法,其特征在于,通過文本分析進行識別標注,得到與所述原始輿情信息對應的標注輿情信息,包括:
獲取輿情處理信息中多個文本信息,且所述文本信息包括多個主題信息;
所述文本信息、所述主題信息的分布參數(shù)分別服從Dirichlet分布;
根據(jù)所述文本信息的分布參數(shù)服從Dirichlet分布,生成對應的主題信息;
根據(jù)所述主題信息的分布參數(shù)服從Dirichlet分布,生成對應的詞信息;
遍歷所述的文本信息、主題信息生成所述主題信息對應的詞信息;得到與原始輿情信息對應的標注輿情信息。
4.根據(jù)權利要求1所述的方法,其特征在于,通過文本分析進行識別標注,得到與所述原始輿情信息對應的標注輿情信息,包括:
將輿情處理信息中對應的文本信息以及標題信息進行分詞處理,得到與所述文本信息、所述標題信息分別對應的詞袋向量;
將所述詞袋向量作為特征計算所有文本信息的相似性,通過聚類刪除相似性低于預設閾值的文本信息以及標題信息,并將保留的文本信息以及標題信息進行標注,得到與所述原始輿情信息對應的標注輿情信息。
5.根據(jù)權利要求1-4中任一項所述的方法,其特征在于,獲取多個原始輿情信息,包括:
按照預設規(guī)則,從多個網(wǎng)絡資源中獲取原始輿情信息;
或者通過API接口獲取原始輿情信息。
6.根據(jù)權利要求1所述的方法,其特征在于,在得到與所述原始輿情信息對應的標注輿情信息之后,還包括:
將所述標注輿情信息與所述原始輿情信息存儲于全文搜索引擎中,以便在交互界面上搜索顯示所述標注輿情信息對應的原始輿情信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國聯(lián)合網(wǎng)絡通信集團有限公司;聯(lián)通系統(tǒng)集成有限公司;聯(lián)通(黑龍江)產(chǎn)業(yè)互聯(lián)網(wǎng)有限公司,未經(jīng)中國聯(lián)合網(wǎng)絡通信集團有限公司;聯(lián)通系統(tǒng)集成有限公司;聯(lián)通(黑龍江)產(chǎn)業(yè)互聯(lián)網(wǎng)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911404334.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 一種用于監(jiān)測站的天氣監(jiān)測系統(tǒng)
- 一種電力設備安全監(jiān)測系統(tǒng)及監(jiān)測方法
- 基于區(qū)塊鏈的環(huán)境監(jiān)測及數(shù)據(jù)處理方法和裝置
- 監(jiān)測方法以及裝置
- 醫(yī)院后勤能耗目標對象的監(jiān)測方法、裝置、計算機設備
- 故障監(jiān)測裝置和故障監(jiān)測系統(tǒng)
- 一種社區(qū)養(yǎng)老安全監(jiān)測系統(tǒng)
- 一種濕地生態(tài)環(huán)境監(jiān)測系統(tǒng)及方法
- 一種接地網(wǎng)阻抗短路在線監(jiān)測裝置
- 一種廢氣監(jiān)測裝置





