[發明專利]傳銷項目的獎金制度識別方法、裝置及電子設備在審
| 申請號: | 201811034567.5 | 申請日: | 2018-09-05 |
| 公開(公告)號: | CN109145117A | 公開(公告)日: | 2019-01-04 |
| 發明(設計)人: | 金立峰;范淵 | 申請(專利權)人: | 杭州安恒信息技術股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/953 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 王文紅 |
| 地址: | 310000 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 獎金制度 網頁 關聯網頁 檢驗 裝置及電子設備 預設 分類模型 關鍵字符 網頁內容 有效地 判定 篩選 圖片 展示 網絡 發現 | ||
1.一種傳銷項目的獎金制度識別方法,其特征在于,所述方法包括:
獲取傳銷項目的多個關聯網頁;其中,所述關聯網頁的頁面上展示有文章或/和圖片;
從多個所述關聯網頁中篩選出待檢驗網頁;其中,所述待檢驗網頁含有預設的獎金制度關鍵字符;
基于預設的分類模型對所述待檢驗網頁中的文章或/和圖片進行檢驗,以判斷所述待檢驗網頁中是否存在傳銷項目的獎金制度。
2.根據權利要求1所述的方法,其特征在于,所述獲取傳銷項目的多個關聯網頁的步驟,包括:
根據預設的第一關鍵詞,從互聯網網頁中篩選與所述第一關鍵詞相匹配的網頁;
獲取所述網頁的html文件中的文本內容,并確定所述文本內容中的核心詞匯;
判斷所述文本內容中的核心詞匯是否與所述傳銷項目的名稱相匹配;
如果是,確定所述網頁為傳銷項目的關聯網頁。
3.根據權利要求2所述的方法,其特征在于,確定所述文本內容中的核心詞匯的步驟,包括:
基于預設的分詞工具,對所述文本內容進行分詞以得到多種詞匯;
采用TF-IDF算法分別計算得到每種所述詞匯的TF-IDF值;
將所述TF-IDF值大于預設第一閾值的所述詞匯確定為所述文本內容的核心詞匯。
4.根據權利要求1所述的方法,其特征在于,當所述關聯網頁的頁面上展示有文章時,所述從所述關聯網頁中篩選出待檢驗網頁的步驟,包括:
根據預設的第二關鍵詞,從獲取的多個所述關聯網頁中初步篩選出目標網頁;其中,所述目標網頁中的文章包含有所述第二關鍵詞;
判斷所述目標網頁是否符合預設的判斷條件;
其中,所述預設的判斷條件包括:所述目標網頁中的文章的標題和文本主體均包含有第二關鍵詞,且,所述第二關鍵詞出現的次數大于預設第一次數,且,所述目標網頁中的文章中的數字出現的次數大于預設第二次數;
如果是,將所述目標網頁確定為待檢驗網頁。
5.根據權利要求1所述的方法,其特征在于,當所述關聯網頁的頁面上展示有圖片時,所述從所述關聯網頁中篩選出待檢驗網頁的步驟,包括:
通過預設的圖片識別工具對所述圖片進行解析,得到所述圖片中的字符;其中,所述字符包括數字串和文字;
判斷所述字符的數量是否高于預設第二閾值;
如果是,基于所述數字串在所述圖片中的點位及所述圖片的尺寸,在所述圖片中構建聚合簇類;
判斷所述聚合簇類中的各特征參數值是否符合預設標準;其中,所述聚合簇類中的特征參數值包括所述數字串的數量和所述數字串之間的偏離度;
如果是,將所述圖片對應的所述關聯網頁確定為待檢驗網頁。
6.根據權利要求5所述的方法,其特征在于,所述通過預設的圖片識別工具對所述圖片進行解析的步驟,包括:
判斷所述圖片的大小是否小于預設第三閾值;
如果否,通過預設的圖片識別工具對所述圖片進行解析。
7.根據權利要求1所述的方法,其特征在于,所述預設分類模型是基于貝葉斯方法所構建的;所述預設分類模型的訓練樣本包括圖片樣本和文章樣本;其中,所述圖片樣本和所述文章樣本中均含有傳銷項目的獎金制度。
8.一種傳銷項目的獎金制度識別裝置,其特征在于,所述裝置包括:
網頁獲取模塊,用于獲取傳銷項目的多個關聯網頁;其中,所述關聯網頁的頁面上展示有文章或/和圖片;
待檢驗網頁確定模塊,用于從多個所述網頁中篩選出待檢驗網頁;其中,所述待檢驗網頁含有預設的獎金制度關鍵字符;
傳銷項目的獎金制度判斷模塊,用于基于預設的分類模型對所述待檢驗網頁中的文章或/和圖片進行檢驗,以判斷所述待檢驗網頁中是否存在傳銷項目的獎金制度。
9.一種電子設備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述權利要求1至7任一項所述的方法的步驟。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,其特征在于,所述計算機程序被處理器運行時執行上述權利要求1至7任一項所述的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州安恒信息技術股份有限公司,未經杭州安恒信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811034567.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本分類方法、裝置、電子設備及存儲介質
- 下一篇:信息管理方法和裝置





