[發明專利]實時流式文本分級監控方法和裝置有效
| 申請號: | 201710058647.3 | 申請日: | 2017-01-23 |
| 公開(公告)號: | CN106886579B | 公開(公告)日: | 2020-01-14 |
| 發明(設計)人: | 張日崇;李晨;蘭天;李建欣;彭浩 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06Q50/00 |
| 代理公司: | 11205 北京同立鈞成知識產權代理有限公司 | 代理人: | 宋揚;劉芳 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實時 文本 分級 監控 方法 裝置 | ||
本發明實施例提供一種實時流式文本分級監控方法和裝置,包括:實時獲取流式的短文本;對所述短文本進行數據清洗、數據補齊和數據過濾處理,生成結構化數據;對所述結構化數據進行文本分詞處理,獲得K個詞;所述K為大于0的整數;根據敏感詞數據庫,對所述K個詞進行敏感分析,獲得所述短文本的敏感值;根據情感詞數據庫,對所述K個詞進行情感分析,獲得所述短文本的情感值;根據所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監控等級。本實施例獲得的用戶的監控等級更精確也更迅速。
技術領域
本發明實施例涉及社交網絡技術領域,尤其涉及一種實時流式文本分級監控方法和裝置。
背景技術
近年來,伴隨著信息技術的蓬勃發展,互聯網的使用大范圍迅速普及,大量不同領域、不同地域、不同時域的信息在產生伊始便經由互聯網廣泛傳播,這一方面有利于人們及時了解實時信息,把握新鮮資訊;但大量冗余、重復乃至錯誤的“暗信息”不僅會增加廣大用戶瀏覽有效信息的難度,甚至會誤導用戶對信息或事態產生錯誤的理解或判斷。以新浪微博、騰訊微博為代表的一系列實時用戶在線分享交流社區自出現以來很快便被廣大互聯網用戶接受并使用,其原因主要包含以下幾點:
注冊方便,僅通過郵箱或電話號碼即可快速擁有賬戶;
自由便捷,用戶可以根據自身需要及心情變化隨時隨地分享自己的想法或狀態;
實時快速,用戶能夠通過消息推送、主動搜索、訂閱關注等多種方式及時獲取想要的多種信息;
用戶廣泛,用戶不僅能夠獲取自身親友圈的信息與狀態,還能與喜歡的明星發生互動;
增強社交,可以方便陌生人相互熟悉,創建新的社交模式。
微博等新穎的社交模式擁有眾多出眾的優點,因此產品受眾范圍十分廣泛,自推出時起便快速積攢大量活躍用戶。快速發展的社交網絡及用戶群一方面有利于用戶的交流、信息的傳播,但也更加劇了文首說明情況的發生,此類微博信息的發布很少或根本未經過人工審核,這就導致很多包含過激情緒或不當言論微博大量的出現在社交網絡中,造成一系列連鎖反應;且微博未實名用戶也同樣可以自由的發表博客,這就會使得信息的產生十分隨意,極易被不法分子或水軍利用,傳播垃圾或反動言論,迷惑群眾。
上述情況的出現對社會危害十分巨大,由于微博類流式短文本所涉及的用戶遍布社會各個階層,且微博類應用用戶基數達到億級,快速傳播的信息將會攜帶文本中的信息與情緒通過社交網絡爆發式擴散,造成難以挽回的影響。因此及時在海量信息中發現此類文本并實施預警,進行輿情管控是一項十分必要的工作。
發明內容
本發明實施例提供一種實時流式文本分級監控方法和裝置,用于使得用戶的監控等級更精確。
第一方面,本發明實施例提供一種實時流式文本分級監控方法,包括:
實時獲取流式的短文本;
對所述短文本進行數據清洗、數據補齊和數據過濾處理,生成結構化數據;
對所述結構化數據進行文本分詞處理,獲得K個詞;所述K為大于0的整數;
根據敏感詞數據庫,對所述K個詞進行敏感分析,獲得所述短文本的敏感值;
根據情感詞數據庫,對所述K個詞進行情感分析,獲得所述短文本的情感值;
根據所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監控等級。
第二方面,本發明實施例提供一種實時流式文本分級監控裝置,包括:
第一獲取模塊,用于實時獲取流式的短文本;
生成模塊,用于對所述短文本進行數據清洗、數據補齊和數據過濾處理,生成結構化數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710058647.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據列映射方法及系統
- 下一篇:一種基于深度學習的圖片情感極性分析方法





