[發明專利]一種電商黑灰產輿情自動挖掘方法和系統在審
| 申請號: | 201810249344.4 | 申請日: | 2018-03-23 |
| 公開(公告)號: | CN108647225A | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 紀守領;劉倩君;陳建海;伍一鳴 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 付晶 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 黑灰 網站 文本數據 預處理 網站信息 搜索結果 搜索引擎 多維度 挖掘 詞庫 作弊 搜索 預警 監控 重復 治理 分析 發現 | ||
1.一種電商黑灰產輿情自動挖掘方法,其特征在于,包括以下步驟:
(1)以種子黑詞為關鍵詞通過搜索引擎進行搜索,爬取搜索結果中網站的文本數據和網站信息數據;
(2)對所述文本數據進行預處理,從預處理后的文本數據中識別獲取黑詞;
(3)對網站信息數據進行分析,識別獲取黑灰產網站;
(4)將獲取的黑詞擴充到黑詞庫中;將獲取的黑灰產網站擴充到黑灰產網站庫中;
(5)將步驟(2)獲取的黑詞作為種子黑詞,重復步驟(1)~(4)。
2.根據權利要求1所述的電商黑灰產輿情自動挖掘方法,其特征在于,所述種子黑詞的數量不少于10個。
3.根據權利要求1所述的電商黑灰產輿情自動挖掘方法,其特征在于,步驟(2)中,所述的預處理包括:
通過文本相關性計算對所述文本數據進行去重;
以中文形式或英文形式的逗號、句號、問號、感嘆號、冒號或分號為分隔符,將去重后的文本數據分割成獨立的句子;
對每個句子進行中文分詞,將句子分割成詞語序列;
對每個詞語進行詞性標注,剔除其中的虛詞。
4.根據權利要求1或3所述的電商黑灰產輿情自動挖掘方法,其特征在于,步驟(2)中,從預處理后的文本數據中識別獲取黑詞,包括:
(i)從預處理后的文本數據中獲取部分語料,人工標注詞語類型后作為訓練樣本和驗證樣本;
(ii)初始化訓練樣本中每個詞語的詞向量;將訓練樣本輸入雙向長短期記憶網絡(Bi-LSTM)中進行向量計算,得到輸出向量;
(iii)將輸出向量作為條件隨機場(CRF)的輸入,計算每個詞語對應每個詞語類型的概率;
(iv)使用隨機梯度下降算法更新雙向長短期記憶網絡和條件隨機場的網絡參數;
(v)采用驗證集測試雙向長短期記憶網絡和條件隨機場的精確率,若所述精確率達到要求,則結束訓練,否則繼續訓練;
(vi)雙向長短期記憶網絡和條件隨機場對預處理后的文本數據進行預測,識別獲取黑詞。
5.根據權利要求4所述的電商黑灰產輿情自動挖掘方法,其特征在于,步驟(i)中,詞語類型包括以下幾類:
(a)電商上下文名詞(ecn);
(b)電商上下文動詞(ecv);
(c)電商黑灰產人物(ECP);
(d)電商黑灰產事物(ECI);
(e)電商黑灰產平臺(ECL);
(f)電商黑灰產行為(ECA);
(g)其他黑詞(OB);
(h)其他詞語(other);
其中,(c)、(d)、(e)、(f)、(g)類型的詞語為黑詞。
6.根據權利要求4所述的電商黑灰產輿情自動挖掘方法,其特征在于,所述訓練集和驗證集的樣本總量比為2~9∶1。
7.根據權利要求4所述的電商黑灰產輿情自動挖掘方法,其特征在于,步驟(iv)中,使用隨機梯度下降更新網絡參數,學習率初始時為0.002,每5次訓練后通過驗證集上計算模型的損失,如果損失值沒有減小,就將學習率減小十分之一。
8.根據權利要求1所述的電商黑灰產輿情自動挖掘方法,其特征在于,步驟(3)中,識別獲取黑灰產網站包括:
(3-1)對部分搜索結果中的網站進行人工標注,構建訓練集和驗證集;
(3-2)提取訓練樣本的url特征、文本特征及html特征;
(3-3)將非數值特征的編號作為其數值特征,對訓練樣本和驗證樣本進行歸一化;
(3-4)將歸一化后的訓練樣本作為SVM模型的輸入,對SVM模型進行訓練;
(3-5)通過訓練好的SVM模型對可疑網站進行預測,識別獲取黑灰產網站。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810249344.4/1.html,轉載請聲明來源鉆瓜專利網。





