[發(fā)明專利]一種電商安全相關(guān)實體的自動挖掘方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810242990.8 | 申請日: | 2018-03-22 |
| 公開(公告)號: | CN108717637B | 公開(公告)日: | 2020-11-17 |
| 發(fā)明(設(shè)計)人: | 紀(jì)守領(lǐng);伍一鳴;陳建海;劉倩君 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00;G06F16/953;G06F16/33 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 高燕 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 安全 相關(guān) 實體 自動 挖掘 方法 系統(tǒng) | ||
1.一種電商安全相關(guān)實體的自動挖掘方法,其特征在于,包括以下步驟:
(1)從互聯(lián)網(wǎng)中收集涉及電商的輿情數(shù)據(jù),所述的輿情數(shù)據(jù)為文本信息的集合;
(2)對所述的輿情數(shù)據(jù)進行初步篩選,剔除與電商黑灰產(chǎn)業(yè)鏈相關(guān)性較小的文本信息,將篩選后的輿情數(shù)據(jù)切分為語句,對語句集合進行迭代篩選,剔除不含有電商安全相關(guān)實體的語句,人工提取部分電商安全相關(guān)實體集S1;對語句集合進行迭代篩選,包括:
(2-Ⅰ)摘取每條文本信息的第一條語句,組成首語句集合Df;
(2-Ⅱ)對首語句集合Df進行自我聚類,若語句之間的字面編輯距離值>0.8時,可將其聚為一類;
將每類中的語句進行兩兩對比,取出每兩條語句中的最長子字符串,人工挑出所以最長子字符串中包含的電商安全相關(guān)實體,得到電商安全相關(guān)實體集S1a,將包含電商安全相關(guān)實體集S1a的語句記為Dj1;將不含有電商安全相關(guān)實體S1a的首語句作為下一輪聚類中心Dc1;
(2-Ⅲ)以Dc1為聚類中心,對所有語句集合Dtext進行聚類,若語句與Dc1之間的字面編輯距離值>0.8時,可將該語句與Dc1聚為一類;
將該類中的語句進行兩兩對比,取出每兩條語句中的最長子字符串,人工挑出所以最長子字符串中包含的電商安全相關(guān)實體,得到電商安全相關(guān)實體集S1b,將包含電商安全相關(guān)實體集S1b的語句記為Dj2;將不含有電商安全相關(guān)實體S1b的語句作為下一輪聚類中心Dc2;
(2-Ⅳ)以Dc2為聚類中心,對Dtext-Dj1-Dj2進行聚類,若語句與Dc2之間的字面編輯距離值>N時,可將該語句與Dc2聚為一類,將聚類結(jié)果作為下一輪的聚類中心;其中,N為常數(shù);
(2-Ⅴ)重復(fù)步驟(2-Ⅳ),直至達到收斂條件,聚類結(jié)果Dn為所有不含有電商安全相關(guān)實體的語句集合;
(3)分別利用TF-IDF的方法和基于規(guī)則的命名實體識別方法,對篩選后的語句集合進行實體提取,獲得候選實體集合;
(4)根據(jù)詞頻特征、長度特征以及上下文特征對候選實體集合進行篩選,剔除不屬于電商安全相關(guān)實體的短語,得到電商安全相關(guān)實體集S2。
2.根據(jù)權(quán)利要求1所述的電商安全相關(guān)實體的自動挖掘方法,其特征在于,步驟(2)中,對所述的輿情數(shù)據(jù)進行初步篩選,包括:
(2-ⅰ)從所述的輿情數(shù)據(jù)中人工挑選若干條與電商黑灰產(chǎn)業(yè)鏈相關(guān)的文本信息,作為訓(xùn)練集訓(xùn)練word2vec詞典;
(2-ⅱ)對所述的輿情數(shù)據(jù)中文本信息的標(biāo)題和正文內(nèi)容進行分詞,分別到訓(xùn)練好的word2vec詞典中查表,獲得標(biāo)題和正文內(nèi)容的詞向量,將標(biāo)題和正文內(nèi)容的詞向量加權(quán)后得到該文本信息的相關(guān)性分值;
剔除相關(guān)性分值小于等于設(shè)定閾值的文本信息。
3.根據(jù)權(quán)利要求1所述的電商安全相關(guān)實體的自動挖掘方法,其特征在于,步驟(2)中,將篩選后的輿情數(shù)據(jù)切分為語句,包括:以特定符合為切分點,將過濾后的輿情數(shù)據(jù)切分為語句;
所述的特定符合為中文形式或英文形式的逗號、句號、頓號、分號、問號或感嘆號。
4.根據(jù)權(quán)利要求1所述的電商安全相關(guān)實體的自動挖掘方法,其特征在于,當(dāng)Rate值第一次等于0.1之前,N=0.4;當(dāng)Rate值第一次等于0.1至第二次等于0.1之前,N=0.5;所述的收斂條件為Rate值第二次等于0.1;
其中,Rate為前后兩輪聚類結(jié)果的數(shù)量差;num(mi)為第i次聚類結(jié)果中的語句數(shù)量;num(mi-1)為第i-1次聚類結(jié)果中的語句數(shù)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810242990.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





