[發明專利]一種基于多策略的微博信息優先采集方法有效
| 申請號: | 201811633421.2 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109670136B | 公開(公告)日: | 2021-04-27 |
| 發明(設計)人: | 劉磊;陳浩;孫應紅;吳爽;侯良文;李靜 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/35;G06F16/9535 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 吳蔭芳 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 策略 信息 優先 采集 方法 | ||
1.一種基于多策略的微博信息優先采集方法,包括以下步驟:
步驟(1)垃圾博主檢測
步驟(1.1)構建垃圾微博檢測模型
步驟(1.1.1)構建訓練數據集,具體如下:
利用爬蟲爬取并人工標注一組微博博文數據:G=[(x1,y1),(x2,y2),......,(xn,yn)],其中n代表總微博條數,xi代表第i條微博,其中yi=0表示xi為垃圾微博,yi=1表示xi為正常微博;
對G中微博進行數據預處理,包括分詞、去除停用、英文大寫轉小寫、繁體轉簡體;
對微博博文數據G中的所有微博均選取8個微博特征,從而構成訓練數據集,其中8個微博特征包括博主本身的個人信息特征4個:粉絲數、關注數、N個月的發博數量和發博頻率,N的取值范圍為:3≤N≤5,以及博文內容特征4個:單條微博的長度、單條微博的鏈接的個數、單條微博圖片的數量和包含的人工標定的敏感詞匯個數;
步驟(1.1.2)訓練垃圾微博檢測模型
利用前步構建的訓練數據集,采用支持向量機算法,訓練得到垃圾微博檢測模型,記作H(x),其中,x表示一條微博的8個特征,若H(x)=0表示垃圾微博,H(x)=1表示正常微博;
步驟(1.2)利用訓練完成的垃圾微博檢測模型進行垃圾博主檢測并刪除,具體如下:
步驟(1.2.1)獲取d1天內,25≤d1≤31,所有微博博主發表的微博集合;
步驟(1.2.2)根據步驟1.1.1)所述對所有微博進行預處理和特征選擇;
步驟(1.2.3)通過訓練完成的垃圾微博檢測模型H(x)對所有微博進行分類,統計每個博主的垃圾微博條數ξ,若ξ>ξmax,則將該博主歸為垃圾博主,其中ξmax為當前博主是否為垃圾博主的閾值,取值范圍為:8≤ξmax≤10;
步驟(2)將步驟(1)中檢測出的垃圾博主從當前微博博主中剔除,然后分類:
剔除垃圾博主后的博主集合定義為U={(u1,uf1),(u2,uf2),...(un,ufn)},博主特征集合定義為uf={Nfans,Nblog},其中:(ui,ufi)分別代表博主ui和該博主的特征集合數據,Nfans表示粉絲數,Nblog表示日均更博數量;對博主集合U中每一博主ui,作如下處理:
若Nfans>Num1,則為A類型博主,記作UA;
若Num1>Nfans>Num2或Nblog>MB,則為B類型博主,記作UB;
若不滿足上述兩個條件且Nfans>Num3,則為C類型博主,記作UC;
其中Num1代表第一閾值,取值范圍為:20萬≤Num1≤80萬;Num2代表第二閾值,取值范圍為:1萬≤Num2≤10萬;MB代表第三閾值,取值范圍為:3≤MB≤5;NumC代表第四閾值,取值范圍為:2000≤Num3≤5000;
步驟(3)確定A類型博主優先采集策略,得到對每位博主的最優采集時間,具體如下:
步驟(3.1)對于任意ua∈UA,獲取d2天內,25≤d2≤31,博主ua的博文的發表時間,去除年月日部分,只保留時分秒部分,排序后得到集合T(ua)={t1,t2,...,tn},其中ti代表博主ua的第i條微博的發表時間;
步驟(3.2)將T(ua)利用k-means算法進行聚類,簇中心的個數k定義見公式(1):
其中:δ為權重,取值范圍為:0.3≤δ≤0.8,len(T(ua))為集合T(ua)的大小,k為δ和len(T(ua))乘積的向上取整;
步驟(3.3)獲取k-means算法的k個簇中心為{tc1,tc2,...,tck},在每個簇中選擇時間最大的作為當前簇的最優采集時間,得到對每位博主的k個最優采集時間,記作
步驟(4)確定B類型博主優先采集策略,得到對B類型博主的優先采集列表SortB,具體如下:
步驟(4.1)構建B類型博主采集回歸模型,具體如下:
步驟(4.1.1)從B類型博主集合中隨機采樣n個,45000≤n≤50000,作為B類型博主的種子博主集合:M={ub1,ub2,...,ubn},其中ubi代表隨機采樣的第i個B類型博主;
步驟(4.1.2)獲取種子博主集合M中每個博主ub的微博特征集合x(ub)以及活躍度值y(ub),
其中,x(ub)表示為一個7元組,x(ub)={Nhot,Nblog,Nreply,Nfollow,Nlike,len,type}
其中,Nhot表示博主d3天內微博中包含熱點信息的微博條數,25≤d3≤31;Nblog表示博主d3天內的微博條數,Nreply表示博主d3天內收到的回復數量,Nfollow表示博主d3天內中微博被轉發的數量,Nlike表示博主d3天內中收到的點贊數量,len表示博主d3天內所發微博的平均長度,type為1代表當前博主是轉發型博主,即在微博總數中,轉發微博數量大于原創微博數量,否則為0;
y(ub)由公式(2)進行計算得到:
其中:Hblog代表當前博主d4年內所發的微博數量,1≤d4≤3,Hfollow代表博主d4年內微博被轉發的總數量,Hreply代表博主d4年內收到的總回復數量,Hlike代表博主d4年內收到的微博的點贊數量;wf,wr,wl分別代表B類型博主轉發、回復、點贊所占的權重值,其中:0.5≤wf≤0.7,0.2≤wr≤0.4,0.1≤wl≤0.2,且wf+wr+wl=1;
步驟(4.1.3)依據種子博主集合M中每個博主ub的微博特征集合,構建回歸模型訓練集:trainset=[(x(ub1),y(ub1)),(x(ub2),y(ub2)),...,(x(ubn),y(ubn))],其中:(x(ubi),y(ubi))代表博主ubi的微博特征集合和活躍度分數值,活躍度分數值通過公式(2)得到;
步驟(4.1.4)利用隨機森林算法構建回歸模型,并通過訓練集trainset進行訓練,得到訓練好的模型F(u),其中:u代表每個B類型博主的微博特征集合,F(u)則表示該博主的活躍度值;
步驟(4.2)構建B類型博主的優先采集列表SortB;
步驟(4.2.1)通過訓練好的回歸模型F(u)獲取每一個B類型博主ub的活躍度值F(ub);
步驟(4.2.2)依據活躍度值F(ub)將B類型博主進行降序排序,得到B類型博主的優先采集列表SortB;
步驟(5)確定C類型博主優先采集策略,得到對C類型博主的優先采集列表SortC,具體如下:
步驟(5.1)獲取每個C類型博主uc的d5天內的微博總數量Nblog,以及粉絲數量Nfans,25≤d5≤31;
步驟(5.2)C類型博主的活躍度得分score由公式(3)得到:
其中wf代表C類型博主的粉絲數的權重,wb代表所發微博數量的權重,0.1≤wf≤0.3,0.7≤wb≤0.9且wf+wb=1,Nfans和Nblog則代表C類型博主uc的粉絲數和近d5天內的發博總數量;Nfmax和Nfmin代表所有C類型博主的最大粉絲數和最小粉絲數,Nbmax和Nbmin則代表所有C類型博主近d5天內發的微博總數量的最大值和最小值;
步驟(5.3)依據公式(3),依次計算每個C類型博主的活躍度得分,并降序排序得到C類型博主的優先采集列表SortC;
步驟(6)構建A、B、C類博主的采集隊列list,采集器根據采集隊列搜集博主信息,具體為:
將C類型博主平均分成三份,即sortC={sortC1,sortC2,sortC3},B、C類博主的采集隊列為[SortB,SortC1,SortB,SortC2,SortB,SortC3],即SortB采集了三遍的同時,SortC僅僅采集了一遍;
然后將A類所有博主的采集時間加入B、C類博主的采集隊列,即當任意A類博主中的最優采集時間與系統時間相等時,則將對應博主的微博采集需求插入到采集隊列list中,遍歷A類所有博主的最優采集時間,形成A、B、C類博主的采集隊列list;
采集器依據list的順序,采集博主的信息;
步驟(7)定期執行步驟(2)-(6),重新獲取博主的近期信息,重新劃定博主類型,訓練模型,更新采集隊列list并采集博主信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811633421.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無線電子通信設備
- 下一篇:進程行為溯源裝置和方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





