[發明專利]一種跨模態檢測網絡水軍的方法在審
| 申請號: | 201710559559.1 | 申請日: | 2017-07-11 |
| 公開(公告)號: | CN109241379A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 白肖璇;相迎宵;陳彤;王盈地;劉京京;竇帥;代磊;陳一昊;牛溫佳;劉吉強 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9538;G06F16/33;G06F16/50;G06F16/58 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模態 圖像特征向量 評論數據 相似度 算法 檢測 轉化 預處理 文本 分類文字 機器學習 圖像特征 網絡評論 文本評論 文本特征 網絡 數據集 圖片 網頁 標簽 評論 賦予 學習 | ||
1.一種跨模態檢測網絡水軍的方法,其特征在于,包括:
S1:獲取網頁評論數據,將所述評論數據進行預處理,得到精簡數據;
S2:提取所述精簡數據中的文本特征,將所述文本特征生成文本特征向量;
S3:提取所述精簡數據中的圖像特征;將所述圖像特征生成圖像特征向量;
S4:將所述文本特征向量和所述圖像特征向量組成數據集,將所述數據集運用算法進行跨模態學習,得出網絡水軍信息。
2.根據權利要求1所述的方法,其特征在于,所述的S1包括:
選取熱門平臺下的評論數據進行爬取,去除所述評論數據中的系統默認評論,去除所述評論數據中的純文本評論數據。
3.根據權利要求1所述的方法,其特征在于,所述的S2包括:
使用Textrank算法對所述精簡數據中的文本數據進行特征提取,具體步驟如下:
(1)對所述的文本數據進行關鍵詞提取,生成候選關鍵詞;
(2)構建候選關鍵詞圖G=(V,E),其中V為節點集,由所述候選關鍵詞組成,通過共現關系構造任兩個節點之間的邊,E表示邊的集合,所述兩個節點之間存在邊對應的關鍵詞在長度為K的窗口中共現,K為窗口大小,且最多共現K個單詞;
(3)根據如下公式,迭代傳播各節點的權重,直至收斂,
其中R(w):w的PageRank值、O(w):w的出度,e(wj,wi):wj→wi邊上的權重,V:節點集合,λ:平滑因子;
(4)對所述的節點權重進行倒序排序,得到的單詞作為候選關鍵詞;
(5)根據(4)中所述的候選關鍵詞,在(1)中所述文本數據上進行標記,若形成相鄰詞組,則組合成多詞關鍵詞。
4.根據權利要求1所述的方法,其特征在于,所述的S3包括:
使用HOG算法對所述精簡數據中的圖像進行特征提取,具體步驟如下:
(1)將所述圖像進行灰度化,其轉化公式為:
Gray=0.3□R+0.59□G+0.11□B
(2)采用Gamma校正法對所述圖像進行顏色空間的標準化,將所述圖像整體亮度提高或降低,降低所述圖像局部的陰影和光照變化所造成的影響;Gamma壓縮公式如下:
Y(x,y)=I(x,y)γ
其中γ設定為0.5,(x,y)為圖像中的像素點;
分別在水平和垂直方向下計算所述圖像的梯度及梯度方向,用圖捕獲輪廓和紋理信息,弱化光照的干擾,計算公式為:
Gx(x,y)=H(x+1,y)-H(x-1,y)
Gy(x,y)=H(x,y+1)-H(x,y-1)
其中Gx(x,y),Gy(x,y),H(x,y)分別表示所述圖像中像素點(x,y)處水平方向和垂直方向的梯度和像素值,分別用[-1,0,1]和[1,0,-1]T梯度算子對原圖像做卷積運算,得到水平x方向和豎直y方向,再計算所述像素點的梯度大小和方向,公式如下:
(3)將所述圖像劃分成若干個小單元,統計每個小單元的梯度直方圖,將每幾個所述小單元組成一個塊,所述塊內所有小單元的特征向量串聯起來得到所述塊的HOG特征向量;
(4)將所有所述塊的HOG特征向量串聯起來得到所述圖像的HOG特征向量,所述圖像的HOG特征向量為用于分類使用的多維度特征向量,得到的所述圖像HOG特征向量格式為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710559559.1/1.html,轉載請聲明來源鉆瓜專利網。





