[發明專利]一種多策略清洗社交媒體文本數據的系統和方法有效
| 申請號: | 201710873539.1 | 申請日: | 2017-09-25 |
| 公開(公告)號: | CN107633077B | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 薛涵凜;王穎 | 申請(專利權)人: | 南京安鏈數據科技有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/35;G06F40/216;G06F40/289;G06K9/62;G06Q50/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南京市雨花臺*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 策略 清洗 社交 媒體 文本 數據 系統 方法 | ||
1.一種多策略清洗社交媒體文本數據的系統,其特征在于,該系統包括:相似文本識別模塊:該模塊的作用是進行網絡文本分詞,去除停用詞,構建文本的詞語集S,對詞語集S進行特征選擇,形成一組由加權詞語組成的向量D,實現一條文本被映射為64位的指紋碼G,對不同文本的指紋碼G,利用cosine distance計算相似度,大于閾值的認定為重復文本,同時,記錄重復網絡文本的發布用戶,保存到黑名單中;營銷文本識別模塊:引入機器學習分類器,對常見網絡文本的營銷特征進行歸納總結,借助SVM分類器實現對營銷文本的識別,SVM分類器選擇的特征包括內容特征和外部特征;垃圾用戶識別模塊:相似文本識別模塊和營銷文本識別模塊的基礎之上,記錄發布“相似文本”、“營銷文本”的用戶,形成用戶黑名單,統計黑名單中用戶發布“相似文本”和“營銷文本”的頻次,將發布頻次高的用戶判定為垃圾用戶,過濾其發布的所有社交媒體數據。
2.根據權利要求1所述的多策略清洗社交媒體文本數據的系統,其特征在于,對由加權詞語組成的向量D進行初始化,初始化一個64維向量V,將向量中每個元素初始值設置為0,對詞語集S中每個詞語進行計算,將詞語word利用Hash函數計算后得到一個64位的簽名f,遍歷64位簽名f的每一位,如果該詞語在第i位上為0,從初始向量V的第i維中減去這個詞語的D[word],完成S全部詞語計算后,一篇文章將被映射成64維向量g,如果g的第i維大于0,則將64位指紋的第i位置為1,否則置為0。
3.根據權利要求1所述的多策略清洗社交媒體文本數據的系統,其特征在于,所述內容特征包括:文本數字占比:社交媒體文本中含有數字占文本總長的比例;符號長度:文本中表情符號、標點符號的長度;超鏈接數量:文本中含有超鏈接的個數;所述外部特征包括:名詞與動詞的長度:文本分詞去停用詞后,名詞和動詞的長度之和;文本長度:原社交媒體文本的總長;轉發數:社交媒體文本被轉發次數;評論數:社交媒體文本被評論次數;點贊數:社交媒體文本被點贊次數。
4.一種多策略清洗社交媒體文本數據的方法,其特征在于,該方法包括如下步驟:步驟A:社交媒體文本的相似度計算,基于simhash算法,設定閾值刪除重復度高的社交媒體文本,并記錄重復文本的發布用戶;步驟B:基于網絡營銷文本的特征和SVM分離器識別出營銷文本,記錄發布網絡營銷文本的用戶;步驟C:基于前兩步記錄發布“營銷文本”和“重復文本”的用戶黑名單,對黑名單中用戶發布垃圾文本的頻次進行統計,判別頻次較高用戶為垃圾用戶,刪除該類用戶發布的社交媒體數據。
5.根據權利要求4所述的多策略清洗社交媒體文本數據的方法,其特征在于:子步驟A1:社交媒體文本分詞,去除停用詞,構建文本的詞語集S;子步驟A2:對S詞語集進行特征選擇,形成一組由加權詞語組成的向量D;子步驟A3:初始化一個64維向量V,將向量中每個元素初始值設置為0;對詞語集S中每個詞語進行如下計算:將每個詞語word利用Hash函數計算后得到一個64位的簽名f,遍歷64位簽名f的每一位,如果該詞在第i位上為0,從向量V的第i維中減去這個詞語的權重D[word];完成S中全部詞語計算后,一篇文章被映射成64維向量g;子步驟A4:如果g的第i維大于0,則將64位指紋的第i位置為1,否則置為0,使得一條社交媒體文本被映射為64位的指紋碼G;子步驟A5:對不同文章的指紋碼G,利用cosinedistance計算相似度,大于閾值的則認定為重復文本,記錄這些重復文本的發布用戶到黑名單中。
6.根據權利要求4所述的多策略清洗社交媒體文本數據的方法,其特征在于,所述營銷文本識別模塊采用SVM模型進行垃圾文本識別與分類,選擇的特征包括營銷文本的內容特征和外部特征,將識別出的營銷文本保存到垃圾文本語料庫中,不斷擴張模型的訓練樣本,并記錄營銷文本數據的發布用戶,添加到用戶黑名單中。
7.根據權利要求4所述的多策略清洗社交媒體文本數據的方法,其特征在于,步驟C包括:對用戶黑名單中的用戶發布重復文本、營銷文本進行頻次統計,判定頻次過高的用戶為垃圾用戶;對非重復文本、非營銷文本,確認該營銷文本的發布用戶,判斷是否為垃圾用戶,過濾掉垃圾用戶發布的所有社交媒體數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京安鏈數據科技有限公司,未經南京安鏈數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710873539.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多孔蔗渣蒸煮裝置
- 下一篇:音頻指紋提取方法、音視頻檢測方法、裝置及終端





