[發明專利]基于頻繁集挖掘的關鍵詞規則生成方法及其裝置在審
| 申請號: | 201811360869.1 | 申請日: | 2018-11-15 |
| 公開(公告)號: | CN109614466A | 公開(公告)日: | 2019-04-12 |
| 發明(設計)人: | 周書恒;祝慧佳;趙智源;郭亞 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許振新;朱文杰 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞文本 有效性檢驗 規則生成 挖掘 文本 互聯網領域 自動生成 有效地 組裝 創建 申請 | ||
本申請涉及互聯網領域,公開了一種基于頻繁集挖掘的關鍵詞規則生成方法及其裝置。所述方法包括:提取風險文本中的基礎關鍵詞;將所述基礎關鍵詞組裝為基礎關鍵詞文本;對所述基礎關鍵詞文本進行頻繁集挖掘,得到頻繁集項;對所述頻繁集項所代表的關鍵詞規則進行有效性檢驗;通過有效性檢驗的所述關鍵詞規則作為最終采用的關鍵詞規則。能夠自動生成適量的高質量的關鍵詞,可以有效提高關鍵詞規則的創建效率,從而快速有效地應對風險文本。
技術領域
本申請涉及互聯網領域,特別涉及一種基于頻繁集挖掘的關鍵詞規則生成技術。
背景技術
隨著互聯網技術不斷進步,越來越多的用戶參與網絡進行討論、獲取知識,在用戶得到便利的同時,也給了黑灰產更多的可乘之機。垃圾廣告、違禁品買賣、謠言、賭博等信息正不斷滲透到互聯網平臺中,嚴重影響了用戶體驗和平臺發展。為了快速防控此類風險,平臺方常利用關鍵詞策略過濾文本內容。比如為了識別過濾賭博文本,可以配置策略:“下注^獎勵^發財”,該策略的含義是:如果檢測文本中同時包含“下注”,“獎勵”,“發財”三個詞則認為該文本是有風險的。
為了生成高質量的關鍵詞策略,常采用人工提取關鍵詞,然后再進行關鍵詞組合的方式。很明顯在面對大量風險文本時,這種方法時耗長,且限于人工知識難以提取高質量關鍵詞組合。
基于人工的關鍵詞規則:具體來說就是根據黑文本中頻繁出現的某種文字模式,人工總結出關鍵詞規則,比如“花唄^套現”,“vpn^翻墻”等。
但是隨著用戶量的增多,用戶的UGC(User Generated Content,用戶原創內容)內容呈指數級上升,隨之而來的違規內容也越來越多,風險形式也越來越多樣。如果仍然使用人工構建關鍵詞規則的方法,將付出大量的人力,而且對于風險的覆蓋情況也難以保證。
基于排列組合的關鍵詞規則生成:具體來說就是根據基礎關鍵詞暴力窮舉出所有的關鍵詞組合。例如有8000條文本,平均每條文本的基礎關鍵詞數量為42。如果限制關鍵詞規則包含的詞數在3-5之間,那么單條文本構成的規則有:近10萬條。即使不同文本間的規則重復率很高,假設平均每條文本生成的規則為1萬條,那么8000條文本共生成8千萬條規則,顯然如此大量的規則將對后續的使用帶來困難。
因此,目前需要一種能夠自動生成適量的高質量關鍵詞的技術。
發明內容
本申請的目的在于提供一種基于頻繁集挖掘的關鍵詞規則生成方法及其裝置,能夠自動生成適量的高質量的關鍵詞,可以有效提高關鍵詞規則的創建效率,從而快速有效地應對風險文本。
為解決上述技術問題,本發明的實施方式公開了一種基于頻繁集挖掘的關鍵詞規則生成方法,包括以下步驟:
提取風險文本中的基礎關鍵詞;
將所述基礎關鍵詞組裝為基礎關鍵詞文本;
對所述基礎關鍵詞文本進行頻繁集挖掘,得到頻繁集項;
對所述頻繁集項所代表的關鍵詞規則進行有效性檢驗;
通過有效性檢驗的所述關鍵詞規則作為最終采用的關鍵詞規則。
本發明的實施方式還公開了一種基于頻繁集挖掘的關鍵詞規則生成裝置,包括:
關鍵詞提取模塊,用于提取風險文本中的基礎關鍵詞;
組裝模塊,用于將所述關鍵詞提取模塊所提取出的基礎關鍵詞組裝為基礎關鍵詞文本;
頻繁集挖掘模塊,用于對所述組裝模塊所組裝的基礎關鍵詞文本進行頻繁集挖掘,得到頻繁集項;
檢驗模塊,用于對所述頻繁集挖掘模塊輸出的頻繁集項所代表的關鍵詞規則進行有效性檢驗;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811360869.1/2.html,轉載請聲明來源鉆瓜專利網。





