日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于多策略的微博信息優先采集方法有效

專利信息
申請號: 201811633421.2 申請日: 2018-12-29
公開(公告)號: CN109670136B 公開(公告)日: 2021-04-27
發明(設計)人: 劉磊;陳浩;孫應紅;吳爽;侯良文;李靜 申請(專利權)人: 北京工業大學
主分類號: G06F16/958 分類號: G06F16/958;G06F16/35;G06F16/9535
代理公司: 北京思海天達知識產權代理有限公司 11203 代理人: 吳蔭芳
地址: 100124 *** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 策略 信息 優先 采集 方法
【權利要求書】:

1.一種基于多策略的微博信息優先采集方法,包括以下步驟:

步驟(1)垃圾博主檢測

步驟(1.1)構建垃圾微博檢測模型

步驟(1.1.1)構建訓練數據集,具體如下:

利用爬蟲爬取并人工標注一組微博博文數據:G=[(x1,y1),(x2,y2),......,(xn,yn)],其中n代表總微博條數,xi代表第i條微博,其中yi=0表示xi為垃圾微博,yi=1表示xi為正常微博;

對G中微博進行數據預處理,包括分詞、去除停用、英文大寫轉小寫、繁體轉簡體;

對微博博文數據G中的所有微博均選取8個微博特征,從而構成訓練數據集,其中8個微博特征包括博主本身的個人信息特征4個:粉絲數、關注數、N個月的發博數量和發博頻率,N的取值范圍為:3≤N≤5,以及博文內容特征4個:單條微博的長度、單條微博的鏈接的個數、單條微博圖片的數量和包含的人工標定的敏感詞匯個數;

步驟(1.1.2)訓練垃圾微博檢測模型

利用前步構建的訓練數據集,采用支持向量機算法,訓練得到垃圾微博檢測模型,記作H(x),其中,x表示一條微博的8個特征,若H(x)=0表示垃圾微博,H(x)=1表示正常微博;

步驟(1.2)利用訓練完成的垃圾微博檢測模型進行垃圾博主檢測并刪除,具體如下:

步驟(1.2.1)獲取d1天內,25≤d1≤31,所有微博博主發表的微博集合;

步驟(1.2.2)根據步驟1.1.1)所述對所有微博進行預處理和特征選擇;

步驟(1.2.3)通過訓練完成的垃圾微博檢測模型H(x)對所有微博進行分類,統計每個博主的垃圾微博條數ξ,若ξ>ξmax,則將該博主歸為垃圾博主,其中ξmax為當前博主是否為垃圾博主的閾值,取值范圍為:8≤ξmax≤10;

步驟(2)將步驟(1)中檢測出的垃圾博主從當前微博博主中剔除,然后分類:

剔除垃圾博主后的博主集合定義為U={(u1,uf1),(u2,uf2),...(un,ufn)},博主特征集合定義為uf={Nfans,Nblog},其中:(ui,ufi)分別代表博主ui和該博主的特征集合數據,Nfans表示粉絲數,Nblog表示日均更博數量;對博主集合U中每一博主ui,作如下處理:

若Nfans>Num1,則為A類型博主,記作UA

若Num1>Nfans>Num2或Nblog>MB,則為B類型博主,記作UB

若不滿足上述兩個條件且Nfans>Num3,則為C類型博主,記作UC

其中Num1代表第一閾值,取值范圍為:20萬≤Num1≤80萬;Num2代表第二閾值,取值范圍為:1萬≤Num2≤10萬;MB代表第三閾值,取值范圍為:3≤MB≤5;NumC代表第四閾值,取值范圍為:2000≤Num3≤5000;

步驟(3)確定A類型博主優先采集策略,得到對每位博主的最優采集時間,具體如下:

步驟(3.1)對于任意ua∈UA,獲取d2天內,25≤d2≤31,博主ua的博文的發表時間,去除年月日部分,只保留時分秒部分,排序后得到集合T(ua)={t1,t2,...,tn},其中ti代表博主ua的第i條微博的發表時間;

步驟(3.2)將T(ua)利用k-means算法進行聚類,簇中心的個數k定義見公式(1):

其中:δ為權重,取值范圍為:0.3≤δ≤0.8,len(T(ua))為集合T(ua)的大小,k為δ和len(T(ua))乘積的向上取整;

步驟(3.3)獲取k-means算法的k個簇中心為{tc1,tc2,...,tck},在每個簇中選擇時間最大的作為當前簇的最優采集時間,得到對每位博主的k個最優采集時間,記作

步驟(4)確定B類型博主優先采集策略,得到對B類型博主的優先采集列表SortB,具體如下:

步驟(4.1)構建B類型博主采集回歸模型,具體如下:

步驟(4.1.1)從B類型博主集合中隨機采樣n個,45000≤n≤50000,作為B類型博主的種子博主集合:M={ub1,ub2,...,ubn},其中ubi代表隨機采樣的第i個B類型博主;

步驟(4.1.2)獲取種子博主集合M中每個博主ub的微博特征集合x(ub)以及活躍度值y(ub),

其中,x(ub)表示為一個7元組,x(ub)={Nhot,Nblog,Nreply,Nfollow,Nlike,len,type}

其中,Nhot表示博主d3天內微博中包含熱點信息的微博條數,25≤d3≤31;Nblog表示博主d3天內的微博條數,Nreply表示博主d3天內收到的回復數量,Nfollow表示博主d3天內中微博被轉發的數量,Nlike表示博主d3天內中收到的點贊數量,len表示博主d3天內所發微博的平均長度,type為1代表當前博主是轉發型博主,即在微博總數中,轉發微博數量大于原創微博數量,否則為0;

y(ub)由公式(2)進行計算得到:

其中:Hblog代表當前博主d4年內所發的微博數量,1≤d4≤3,Hfollow代表博主d4年內微博被轉發的總數量,Hreply代表博主d4年內收到的總回復數量,Hlike代表博主d4年內收到的微博的點贊數量;wf,wr,wl分別代表B類型博主轉發、回復、點贊所占的權重值,其中:0.5≤wf≤0.7,0.2≤wr≤0.4,0.1≤wl≤0.2,且wf+wr+wl=1;

步驟(4.1.3)依據種子博主集合M中每個博主ub的微博特征集合,構建回歸模型訓練集:trainset=[(x(ub1),y(ub1)),(x(ub2),y(ub2)),...,(x(ubn),y(ubn))],其中:(x(ubi),y(ubi))代表博主ubi的微博特征集合和活躍度分數值,活躍度分數值通過公式(2)得到;

步驟(4.1.4)利用隨機森林算法構建回歸模型,并通過訓練集trainset進行訓練,得到訓練好的模型F(u),其中:u代表每個B類型博主的微博特征集合,F(u)則表示該博主的活躍度值;

步驟(4.2)構建B類型博主的優先采集列表SortB;

步驟(4.2.1)通過訓練好的回歸模型F(u)獲取每一個B類型博主ub的活躍度值F(ub);

步驟(4.2.2)依據活躍度值F(ub)將B類型博主進行降序排序,得到B類型博主的優先采集列表SortB;

步驟(5)確定C類型博主優先采集策略,得到對C類型博主的優先采集列表SortC,具體如下:

步驟(5.1)獲取每個C類型博主uc的d5天內的微博總數量Nblog,以及粉絲數量Nfans,25≤d5≤31;

步驟(5.2)C類型博主的活躍度得分score由公式(3)得到:

其中wf代表C類型博主的粉絲數的權重,wb代表所發微博數量的權重,0.1≤wf≤0.3,0.7≤wb≤0.9且wf+wb=1,Nfans和Nblog則代表C類型博主uc的粉絲數和近d5天內的發博總數量;Nfmax和Nfmin代表所有C類型博主的最大粉絲數和最小粉絲數,Nbmax和Nbmin則代表所有C類型博主近d5天內發的微博總數量的最大值和最小值;

步驟(5.3)依據公式(3),依次計算每個C類型博主的活躍度得分,并降序排序得到C類型博主的優先采集列表SortC;

步驟(6)構建A、B、C類博主的采集隊列list,采集器根據采集隊列搜集博主信息,具體為:

將C類型博主平均分成三份,即sortC={sortC1,sortC2,sortC3},B、C類博主的采集隊列為[SortB,SortC1,SortB,SortC2,SortB,SortC3],即SortB采集了三遍的同時,SortC僅僅采集了一遍;

然后將A類所有博主的采集時間加入B、C類博主的采集隊列,即當任意A類博主中的最優采集時間與系統時間相等時,則將對應博主的微博采集需求插入到采集隊列list中,遍歷A類所有博主的最優采集時間,形成A、B、C類博主的采集隊列list;

采集器依據list的順序,采集博主的信息;

步驟(7)定期執行步驟(2)-(6),重新獲取博主的近期信息,重新劃定博主類型,訓練模型,更新采集隊列list并采集博主信息。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201811633421.2/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 免费精品99久久国产综合精品应用| 97人人澡人人爽91综合色| 久久91精品国产91久久久| 欧美综合在线一区| 午夜性电影| 欧美精品国产一区二区| 精品国产鲁一鲁一区二区三区| 中文字幕欧美另类精品亚洲| 欧美国产在线看| 久久精品入口九色| 精品在线观看一区二区| 久久久久偷看国产亚洲87| 国产精品一二二区| 日韩三区三区一区区欧69国产| 日韩av在线免费电影| 天堂av一区二区三区| 综合久久一区二区三区| 欧美日韩国产在线一区二区三区 | 国内少妇偷人精品视频免费| 国产99久久九九精品免费| 亚洲欧美一区二| 国产精品一区在线播放| 亚洲精品91久久久久久| 91麻豆精品一区二区三区| 色婷婷精品久久二区二区我来| 91精品国产高清一二三四区| 国产一区二区综合| 波多野结衣女教师电影| 午夜av片| 91夜夜夜| 国产精品高潮在线| 欧美xxxxxhd| 99re6国产露脸精品视频网站| 88国产精品视频一区二区三区| 国产欧美一区二区三区在线看| 中文字幕一区二区三区四| 欧美一区二区三区免费电影| 97视频久久久| 久久精品一二三| 久久99精品久久久噜噜最新章节| 国内久久精品视频| 国产精品综合一区二区三区| 国产专区一区二区| 欧美日韩一级二级三级| 国产精品一区二区毛茸茸| 狠狠色很很在鲁视频| 一区二区欧美精品| 日本一区二区三区在线看| 日韩毛片一区| 色就是色欧美亚洲| 日韩欧美国产另类| 处破大全欧美破苞二十三| 久久99中文字幕| 亚洲欧美一区二区三区三高潮| 亚洲少妇一区二区三区| 国产农村妇女精品一二区| 日本精品一区在线| 国产69精品久久久久app下载| 欧美69精品久久久久久不卡| 国产精选一区二区| 91免费视频国产| xxxxx色| 亚洲精品日韩精品| 国产精品久久久久久久久久软件| 国产一区二区二| 狠狠色噜噜综合社区| 欧美一区二区三区四区夜夜大片 | 日韩av一二三四区| 97人人模人人爽视频一区二区 | 午夜av男人的天堂| 国产69精品福利视频| bbbbb女女女女女bbbbb国产 | 91超薄丝袜肉丝一区二区| 一二三区欧美| 久久99精品久久久大学生| 中文丰满岳乱妇在线观看| 欧美日韩九区| 国产亚洲欧美日韩电影网| 99久久婷婷国产精品综合| 国产资源一区二区| 国产乱人伦偷精品视频免下载| 欧美系列一区| 丝袜美腿诱惑一区二区| 97精品国产aⅴ7777| 欧美日韩一级黄| 亚洲精品国产精品国自产网站按摩| 国产1区2| 日本三级韩国三级国产三级| 91精品第一页| 欧美一区二区三区免费视频| 日本一区二区三区在线看 | 日本精品一二区| 国产视频一区二区在线| 国产免费一区二区三区四区五区| 欧美3p激情一区二区三区猛视频 | 一区二区三区国产精华| 精品国产精品亚洲一本大道| 日韩精品久久久久久久的张开腿让| 欧美一区视频观看| 久99久精品| 国产欧美日韩中文字幕| 日本一区午夜艳熟免费| 国产婷婷一区二区三区久久| 国产精品日韩电影| 国产精品九九九九九| 国产一区免费播放| 亚洲一卡二卡在线| 特级免费黄色片| 二区三区视频| 亚洲国产精品日本| 日本一区二区欧美| 国产精品爽到爆呻吟高潮不挺| 亚洲国产精品国自产拍久久| 四虎国产精品永久在线国在线| 日本xxxx护士高潮hd| 精品久久久久久亚洲综合网| 美女张开腿黄网站免费| av中文字幕一区二区| 国产全肉乱妇杂乱视频在线观看| 四虎国产精品永久在线国在线 | 国产一区日韩精品| 国产精品一区久久人人爽| 国产在线卡一卡二| 欧美一区二区三区久久综合| 中文乱码在线视频| 国产精品日韩精品欧美精品| 久久精品99国产精品亚洲最刺激| 国产精品久久久久久久久久久新郎 | 亚洲乱码一区二区三区三上悠亚 | 性刺激久久久久久久久九色| 国模精品免费看久久久| 精品国产亚洲一区二区三区| 91久久久久久亚洲精品禁果| 蜜臀久久精品久久久用户群体| 91av一区二区三区| 91亚洲精品国偷拍| 九色国产精品入口| 狠狠色噜噜狠狠狠狠2021天天| 亚洲国产精品一区在线| 日本一区二区三区在线视频| 国产日韩欧美不卡| 狠狠色噜噜狠狠狠狠2021免费| 日韩欧美国产高清91| 欧美精品亚洲一区| 精品国精品国产自在久不卡| 欧美日韩国产精品一区二区| 亚洲精品456| 国产一级片网站| 理论片高清免费理伦片| 国产日韩一区二区在线| 亚洲少妇一区二区三区| 欧美日韩国产一区在线| 一区二区三区在线观看国产| 欧美在线视频三区| 国产在线拍偷自揄拍视频| 午夜大片男女免费观看爽爽爽尤物| 国产精品二区一区| 久久国产精品二区| 性色av色香蕉一区二区| 国产精品国产三级国产aⅴ下载| 国产精品久久久久久久久久久久久久久久久久 | 欧美一区二区三区片| 国产一区二区三区国产| 窝窝午夜精品一区二区| 日本高清二区| 日本少妇高潮xxxxⅹ| 黄色av免费| 国产香蕉97碰碰久久人人| 国产一区激情| 99久久免费精品国产免费高清| 一区二区欧美视频| 中文丰满岳乱妇在线观看| 久久福利免费视频| 中文字幕在线播放一区| 日韩精品中文字| 91麻豆精品国产91久久久久| 精品无人国产偷自产在线| 中文在线√天堂| 国产一区二区免费在线| 日韩国产精品一区二区| 久久一级精品视频| 欧美一区二区三区免费在线观看| 国产一区日韩在线| 久久影视一区二区| 国产精品自拍在线观看| 亚洲四区在线观看| 日本精品在线一区| 日韩av三区| 狠狠搞av| 欧美色综合天天久久| 右手影院av| 日本久久不卡| 理论片高清免费理伦片| 日韩av在线导航| 强制中出し~大桥未久在线播放| 欧美日韩国产精品综合| 久久久久久国产一区二区三区| 国产馆一区二区| 国产视频精品久久| 日本高清二区| 亚洲免费精品一区二区| 欧美激情精品久久久久久免费 | 麻豆国产一区二区| 国产69久久久欧美一级| 91亚洲精品国偷拍| 91麻豆国产自产在线观看hd| 亚洲少妇一区二区三区| 亚洲国产午夜片| 午夜影院激情| 久久精品男人的天堂| 午夜情所理论片| 免费精品一区二区三区第35| 国产伦理久久精品久久久久| 国产精品1234区| 欧美在线视频二区| 野花社区不卡一卡二| 亚洲午夜精品一区二区三区电影院| 首页亚洲欧美制服丝腿| 免费超级乱淫视频播放| 国产精品一区二区在线观看免费| 亚洲制服丝袜在线| 欧美一区二区久久| 日韩午夜三级| 欧美激情在线一区二区三区| 亚洲一区二区国产精品| 少妇久久免费视频| 欧美老肥婆性猛交视频| 国产精一区二区三区| 97国产婷婷综合在线视频,| 午夜av资源| 激情久久综合| 欧美高清视频一区二区三区| 午夜国产一区二区三区| 一区二区在线国产| 一区不卡av| 久草精品一区| 久久精品国产色蜜蜜麻豆| 国产农村妇女精品一区二区 | 国产精品亚洲第一区| 免费看欧美中韩毛片影院| 一区二区三区免费高清视频| 日韩欧美精品一区二区三区经典| 亚洲三区在线| 久久99精| 亚洲乱玛2021| 亚洲福利视频二区|