[發明專利]信息識別模型的建立方法及系統、攔截方法及系統在審
| 申請號: | 201811301550.1 | 申請日: | 2018-11-02 |
| 公開(公告)號: | CN111209391A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 仇路;余隆平;陳俊偉;李鑫;姚書清;金薇薇;田玉杰;朱林;李務軍 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F16/9535;H04L12/58 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 薛琦;李夢男 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 識別 模型 建立 方法 系統 攔截 | ||
本發明公開了一種信息識別模型的建立方法及系統、網絡信息的攔截方法及系統、設備、存儲介質。所述建立方法包括以下步驟:獲取已標識類型的網絡信息作為訓練樣本,并對每則網絡信息的文本內容進行分詞處理,得到特征詞;計算每則網絡信息中,至少兩個特征詞組合后的詞組的TF?IDF值;根據所述TF?IDF值訓練SVM模型,得到所述信息識別模型;所述信息識別模型用于識別所述網絡信息的類型。本發明提高了網絡信息類別識別的準確度,為廣告、騷擾信息的快速、準確攔截提供幫助。
技術領域
本發明涉及互聯網技術領域,特別涉及一種信息識別模型的建立方法及系統、網絡信息的攔截方法及系統、設備、存儲介質。
背景技術
隨著互聯網絡的發展,越來越多的用戶傾向于通過網絡發表自己的觀點,或將網絡作為與他人溝通的工具。然而部分人員會利用網絡的便捷性,傳播敏感信息、發布虛假廣告或發送騷擾信息,需要對其進行攔截過濾。例如,在電商平臺中,IM(Instant Messaging,即時通訊)作為消費者和店鋪運營人員之間的溝通工具,在提升店鋪的運營效率、改善用戶體驗方面發揮著重要的作用。但有部分人員,例如刷單、刷排名、刷評論等人員,借助IM工具向店鋪運營人員頻繁發送廣告和騷擾消息,影響店鋪的正常運營。這些廣告、騷擾消息不僅影響到店鋪正常運營,同時也侵害了電商平臺的利益。因此在保障消費者和店鋪通過IM進行正向消息交流的前提下,有效檢測廣告和騷擾等負向消息并進行相應的攔截過濾處理,成為了一個關注的焦點。
目前,對于信息的攔截過濾主要采用數據分析方法:通過聊天消息流水統計出發送廣告和騷擾消息的用戶、IP(互聯網協議)地址等維度信息,當發現消息是這些用戶或者IP地址發出時直接攔截;或者統計出廣告和騷擾消息的發送頻度,當某條消息的發送頻度超過統計值時直接攔截。這種基于IP地址、用戶和發送頻度等信息攔截廣告和騷擾消息的方式,一方面攔截策略易被破解,導致攔截策略失效,另一方面容易造成誤攔截。
發明內容
本發明要解決的技術問題是為了克服現有技術中攔截網絡信息的方式,容易造成誤攔截,準確度較低的缺陷,提供一種信息識別模型的建立方法及系統、網絡信息的攔截方法及系統、設備、存儲介質。
本發明是通過下述技術方案來解決上述技術問題:
一種信息識別模型的建立方法,所述建立方法包括以下步驟:
獲取已標識類型的網絡信息作為訓練樣本,并對每則網絡信息的文本內容進行分詞處理,得到特征詞;
計算每則網絡信息中,至少兩個特征詞組合后的詞組的TF-IDF值;
根據所述TF-IDF值訓練SVM模型,得到所述信息識別模型;
所述信息識別模型用于識別所述網絡信息的類型。
較佳地,所述網絡信息的類型包括:待攔截信息和正常信息;
所述TF-IDF值的計算公式如下:
TF-IDF=TF*IDF;
TF={j:ni∈dneg}/dneg;
IDF=log(D/{j:ni∈dpos});
其中,dneg表示所述訓練樣本中待攔截信息的條數;{j:ni∈dneg}表示所述待攔截信息中包含詞組ni的消息j的條數;dpos表示所述訓練樣本中正常信息的條數;{j:ni∈dpos}表示所述正常信息中包含詞組ni的消息j的條數;D表示所述訓練樣本中所述網絡信息的條數;j∈{1,2,…,D}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811301550.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:區域常住人口數量的確定方法、裝置、服務器和介質
- 下一篇:音頻處理方法和裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





