[發明專利]面向事件檢測的社交網絡短文本數據過濾方法在審
| 申請號: | 201810980312.1 | 申請日: | 2018-08-27 |
| 公開(公告)號: | CN109063185A | 公開(公告)日: | 2018-12-21 |
| 發明(設計)人: | 費高雷;趙越;于娟娟 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 短文本 社交網絡 事件檢測 數據過濾 分類 預處理 文本 分類特征 價值信息 句法特征 數據提取 無用信息 影響特征 用戶背景 分類器 算法 抽取 過濾 保留 分析 | ||
1.一種面向事件檢測的社交網絡短文本數據過濾方法,其特征在于,包括以下步驟:
A、獲取社交網絡短文本數據,并對社交網絡短文本數據進行預處理;
B、對步驟A處理后的社交網絡短文本數據分別抽取用戶背景特征、文本句法特征及文本影響特征;
C、訓練GBDT分類器,根據步驟B抽取得到的特征對社交網絡短文本數據進行分類。
2.如權利要求1所述的面向事件檢測的社交網絡短文本數據過濾方法,其特征在于,所述步驟A中,對社交網絡短文本數據進行預處理具體為:首先對社交網絡短文本數據進行分詞操作,然后對分詞后的社交網絡短文本數據進行詞性標注和命名實體識別操作,最后對分詞標注的結果進行標簽的融合。
3.如權利要求2所述的面向事件檢測的社交網絡短文本數據過濾方法,其特征在于,所述步驟B中,用戶背景特征具體包括:用戶是否認證、用戶是否開啟物理定位、用戶是否處于受保護狀態、用戶被關注數、用戶關注數、用戶存在于公共列表中的數量、用戶發布文本數量。
4.如權利要求2所述的面向事件檢測的社交網絡短文本數據過濾方法,其特征在于,所述步驟B中,文本句法特征具體包括:動詞個數、命名實體個數、介詞個數、名詞個數、代詞個數、形容詞個數、實意詞個數、名詞與介詞的搭配個數、動詞與介詞的搭配個數。
5.如權利要求2所述的面向事件檢測的社交網絡短文本數據過濾方法,其特征在于,所述步驟B中,文本影響特征具體包括:點贊數、轉發數、評論數、回復數。
6.如權利要求1-5任一所述的面向事件檢測的社交網絡短文本數據過濾方法,其特征在于,所述步驟C中,訓練GBDT分類器,具體包括以下分步驟:
C1、設定訓練數據集合M={(x1,y1),(x2,y2),…(xm,ym)},其中m為訓練數據個數,(xi,yi)為第i個訓練數據,xi為第i個訓練數據的特征向量,yi為第i個訓練數據的分類標簽;
C2、初始化弱學習器其中L為損失函數,c為初始化弱學習器的區域輸出值;
C3、迭代構建CART回歸樹,對m個訓練數據,計算負梯度rti,表示為
其中,t=1,2,…T,T為迭代次數;
C4、利用(xi,rti)擬合一顆CART回歸樹,得到第t棵回歸樹,表示為
其中,rti為第t輪迭代中第i個訓練樣本的殘差,J為回歸樹劃分的區域數,ctj為第t棵決策回歸樹的第j個區域的最佳擬合值,i=1,2,…,m,I(x∈Rtj)為指示函數;
C5、構建強學習器,表示為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810980312.1/1.html,轉載請聲明來源鉆瓜專利網。





