[發明專利]一種微信公眾號是否有敏感詞匯的檢測方法及裝置在審
| 申請號: | 202010115073.0 | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111339251A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 田東坡 | 申請(專利權)人: | 上海昌投網絡科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/289;G06F40/242 |
| 代理公司: | 北京力量專利代理事務所(特殊普通合伙) 11504 | 代理人: | 何東明 |
| 地址: | 200135 上海市浦東新區自由貿易試驗區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 公眾 是否 敏感 詞匯 檢測 方法 裝置 | ||
1.一種微信公眾號是否有敏感詞匯的檢測方法,其特征在于:包括以下步驟:
S1、提取微信公眾號的歷史文章數據,人工標注文章是否有敏感詞匯;
S2、清洗文章數據,并作為訓練數據訓練word2vec模型,將文章分詞并獲取embedding,最后訓練雙向bilstm深度學習模型;
S3、獲取待預測的微信公眾號的預設數量的歷史文章數據,清洗數據,獲取embedding,使用訓練后的的雙向bilstm深度學習模型進行預測,輸出每文章是否有敏感詞匯的預測結果;
S4、根據預設數量文章中帶有敏感詞匯的文章數量,計算出有敏感詞匯的文章的數量占全部文章的比例是否大于預設比例,是則判定被測微信公眾號有敏感詞匯,否則判定被測微信公眾號沒有敏感詞匯。
2.如權利要求1所述的一種微信公眾號是否有敏感詞匯的檢測方法,其特征在于:所述清洗文章數據具體為:對文章數據進行分詞處理。
3.如權利要求1所述的一種微信公眾號是否有敏感詞匯的檢測方法,其特征在于:所述訓練word2vec模型具體為:根據Word2Vec算法對所述的分詞處理結果進行向量轉換,得到分詞結果向量。
4.如權利要求1所述的一種微信公眾號是否有敏感詞匯的檢測方法,其特征在于:所述訓練雙向bilstm深度學習模型結構具體為:搭建神經網絡模型,通過獲取的embedding訓練模型以獲得模型參數。
5.如權利要求1所述的一種微信公眾號是否有敏感詞匯的檢測方法,其特征在于:步驟S1中,還包括:構建敏感詞匯語料庫,構建包括敏感詞匯詞語的科技詞典,將其作為分詞的優選項加到分詞詞典中。
6.一種微信公眾號是否有敏感詞匯的檢測裝置,其特征在于:包括:
數據采集模塊,其用于提取微信公眾號的歷史文章數據,并通過人工標注文章是否有敏感詞匯;
數據處理模塊,其用于清洗文章數據;
檢測模型,其包括word2vec模型和bilstm深度學習模型;word2vec模型用于對清洗后的文章數據進行處理以獲取embedding;bilstm深度學習模型用于通過embedding進行模型訓練,并在訓練完成后檢測待測微信公眾號的文章數據是否有敏感詞匯;
計算模塊,其用于根據待測微信公眾號的預設數量的歷史文章中的有敏感詞匯的文章的數量,計算出有敏感詞匯的文章的數量占全部文章的比例是否大于預設比例,是則判定被測微信公眾號有敏感詞匯,否則判定被測微信公眾號沒有敏感詞匯。
7.如權利要求6所述的一種微信公眾號是否有敏感詞匯的檢測裝置,其特征在于:所述清洗文章數據具體為:對文章數據進行分詞處理。
8.如權利要求6所述的一種微信公眾號是否有敏感詞匯的檢測裝置,其特征在于:所述word2vec模型對清洗后的文章數據進行處理具體為:根據Word2Vec算法對所述的分詞處理結果進行向量轉換,得到分詞結果向量。
9.如權利要求6所述的一種微信公眾號是否有敏感詞匯的檢測裝置,其特征在于:所述訓練雙向bilstm深度學習模型結構具體為:搭建神經網絡模型,通過獲取的embedding訓練bilstm深度學習模型以獲得模型參數。
10.如權利要求6所述的一種微信公眾號是否有敏感詞匯的檢測裝置,其特征在于:所述數據處理模塊還用于構建敏感詞匯語料庫,構建包括敏感詞匯詞語的科技詞典,將其作為分詞的優選項加到分詞詞典中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海昌投網絡科技有限公司,未經上海昌投網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010115073.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無人超市的零售系統
- 下一篇:一種微信公眾號是否刷閱讀的判斷方法及裝置





