[發明專利]一種離散文本內容風險識別方法和系統在審
| 申請號: | 201810859696.1 | 申請日: | 2018-07-31 |
| 公開(公告)號: | CN109255069A | 公開(公告)日: | 2019-01-22 |
| 發明(設計)人: | 謝譜模 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F17/27 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 楊移 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本內容 風險識別 拼接 分割 日志 | ||
本發明提供了一種離散文本內容風險識別方法和系統,其中,該方法包括:對日志進行分割,并對分割得到的離散文本內容進行拼接;根據拼接的結果,確定離散文本內容是否存在風險。
技術領域
本發明涉及計算機技術領域,特別涉及一種離散文本內容風險識別方法和系統。
背景技術
內容類網絡平臺的迅猛發展,在給信息交流帶來方便、快捷的同時,也讓一些垃圾信息日益激增,例如,一些違禁、欺詐、色情等內容通過用戶在一段時間內發出的多條內容(即離散文本內容)進行傳播,對網絡環境造成污染。
因此,對用戶發送的離散文本內容進行風險識別以凈化網絡環境是至關重要的。
發明內容
鑒于此,本發明實施例提供了一種離散文本內容風險識別方法和系統,能夠節省離散文本內容風險識別的成本。
第一方面,本發明實施例提供了一種離散文本內容風險識別方法,包括:
對日志進行分割,得到離散文本內容;
對所述離散文本內容進行拼接;
根據拼接的結果,確定所述離散文本內容是否存在風險。
優選地,
所述對日志進行分割,得到離散文本內容,包括:
根據分隔符對日志進行分割,得到離散文本內容、發送時間、用戶ID和/或群ID。
優選地,
所述對所述離散文本內容進行拼接,包括:
將所述用戶ID和/或所述群ID對應的日志中,所述發送時間在當前日志之前的日志的離散文本內容,作為所述當前日志的離散文本內容的前綴進行拼接。
優選地,
所述將所述用戶ID和/或所述群ID對應的日志中,所述發送時間在當前日志之前的日志的離散文本內容,作為所述當前日志的離散文本內容的前綴進行拼接,包括:
將所述用戶ID和/或所述群ID對應的日志中,所述發送時間在預設的時間滑動窗口內、且在當前日志之前的日志的離散文本內容,作為所述當前日志的離散文本內容的前綴進行拼接。
優選地,
所述根據拼接的結果,確定所述離散文本內容是否存在風險,包括:
對拼接的結果進行分詞;
將分詞的結果與預設的風險詞庫進行匹配,確定所述拼接的結果的第一風險值;
當所述第一風險值在預設的第一風險范圍內時,確定所述離散文本內容存在風險,否則,確定所述離散文本內容不存在風險;
優選地,
所述根據拼接的結果,確定所述離散文本內容是否存在風險,包括:
對拼接的結果進行特征提取;
根據特征提取的結果和預先構建的至少一個風險模型,確定所述拼接的結果所屬的目標風險模型;
根據所述目標風險模型,確定所述拼接的結果的第二風險值;
當所述第二風險值在預設的第二風險范圍內時,確定所述離散文本內容存在風險,否則,確定所述離散文本內容不存在風險。
優選地,
在所述對日志進行分割之前,進一步包括:
從業務系統中采集所述日志。
優選地,
所述從業務系統中采集所述日志,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810859696.1/2.html,轉載請聲明來源鉆瓜專利網。





