[發明專利]一種電商安全相關實體的自動挖掘方法及系統有效
| 申請號: | 201810242990.8 | 申請日: | 2018-03-22 |
| 公開(公告)號: | CN108717637B | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 紀守領;伍一鳴;陳建海;劉倩君 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00;G06F16/953;G06F16/33 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 高燕 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 安全 相關 實體 自動 挖掘 方法 系統 | ||
本發明公開了一種電商安全相關實體的自動挖掘方法和系統,其中方法包括:從互聯網中收集涉及電商的輿情數據,所述的輿情數據為文本信息的集合;對所述的輿情數據進行初步篩選,剔除與電商黑灰產業鏈相關性較小的文本信息,將篩選后的輿情數據切分為語句,對語句集合進行迭代篩選,剔除不含有電商安全相關實體的語句,人工提取部分電商安全相關實體集S1;對篩選后的語句集合進行實體提取,獲得候選實體集合;對候選實體集合進行篩選,剔除不屬于電商安全相關實體的短語,得到電商安全相關實體集S2。本發明的電商安全相關實體的自動挖掘方法能有效識別電商輿情安全相關實體。
技術領域
本發明涉及自然語言處理和電商服務安全技術領域,尤其涉及一種電商安全相關實體的自動挖掘方法及系統。
背景技術
“互聯網+”時代下,電子商務迅猛發展。日益激烈的商品競爭,滋生了一條以炒信作弊為主要模式以及虛假交易、人工流量和垃圾評論為典型特征的電商黑灰產業鏈。同時,競爭引發了一系列以詐騙為主的違法犯罪活動,其存在嚴重危害了電子商務的信譽體系和市場秩序。因此,全面整治網絡服務環境,嚴厲打擊電商黑灰產業鏈,已成為電商平臺健康發展、良性競爭的必然要求。
由于互聯網技術的發展,商家和作弊用戶之間的非法交易已從傳統的P2P形式演變成了商家向刷單組織支付費用、刷單組織分配任務給刷單者、刷單者完成任務獲取報酬這一完整的產業鏈條,在這條產業鏈中有很多作弊方式在不斷的升級和進化,這些隱形且新穎的作弊方式借助電商平臺不斷進行著擾亂市場、違法逐利的行為。
此外,由于電商購物平臺對店鋪及商品采取了排名機制,店鋪通常會采取一系列的策略來吸引流量,從而提高交易率。因此,電商服務平臺應運而生。根據平臺的經營方式可以將其分成兩種,一是在購物平臺允許的范圍內,幫助商家更好的包裝店鋪,例如提供頁面設計的服務型網站;二是給虛假交易等作弊行為提供資源的平臺,例如出售大量的身份信息給商家。
即使各大電商交易平臺都有自己獨立的反作弊算法對這些行為進行檢測與打擊,但也只能依賴于平臺中已經產生的虛假交易活動來挖掘出虛假交易的數據(交易量)和對象(商品、商家、用戶),無法在交易完成之前對用戶和商家的行為進行防范和杜絕,由此可見電商黑灰產業鏈已經形成了一個異常成熟且初具智能的系統,其龐大的信息量和隱蔽的交易方式若人為的進行挖掘和分析將會是一個非常巨大的工程。
命名實體識別(Named Entity Recognition)是從文本中識別具有特定類別的實體,例如人名、地名、機構名等。命名實體識別是信息檢索,查詢分類,自動問答等問題的基礎任務,其效果直接影響后續處理的效果。一直以來,中文的命名實體識別都是自然語言領域處理的一個難題,目前研究中的方法主要可以歸納為基于規則的方法、基于統計的方法、以及兩者的結合?;诮y計的方法往往依賴于統計模型和語料,而沒有充分研究命名實體自身的構成模式。而在電商輿情語料庫中,嚴重存在著實體數據稀疏的問題,導致很難得到正確的實體識別結果。
發明內容
本發明提供了一種電商安全相關實體的自動挖掘方法,能有效識別電商輿情安全相關實體。
本發明提供了如下技術方案:
一種電商安全相關實體的自動挖掘方法,包括以下步驟:
(1)從互聯網中收集涉及電商的輿情數據,所述的輿情數據為文本信息的集合;
(2)對所述的輿情數據進行初步篩選,剔除與電商黑灰產業鏈相關性較小的文本信息,將篩選后的輿情數據切分為語句,對語句集合進行迭代篩選,剔除不含有電商安全相關實體的語句,人工提取部分電商安全相關實體集S1;
(3)分別利用TF-IDF的方法和基于規則的命名實體識別方法,對篩選后的語句集合進行實體提取,獲得候選實體集合;
(4)根據詞頻特征、長度特征以及上下文特征對候選實體集合進行篩選,剔除不屬于電商安全相關實體的短語,得到電商安全相關實體集S2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810242990.8/2.html,轉載請聲明來源鉆瓜專利網。





