[發明專利]一種網絡圖片輿情監測方法在審
| 申請號: | 201710280955.0 | 申請日: | 2017-04-26 |
| 公開(公告)號: | CN107122450A | 公開(公告)日: | 2017-09-01 |
| 發明(設計)人: | 郭怡適;黃耀鴻;陳城;楊湧 | 申請(專利權)人: | 廣州圖匠數據科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利商標代理有限公司44202 | 代理人: | 郝傳鑫 |
| 地址: | 510000 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 圖片 輿情 監測 方法 | ||
1.一種網絡圖片輿情監測方法,其特征在于,所述輿情監測方法包括如下步驟:
S1、根據需要搜索的信息輸入關鍵字進行全網爬蟲搜索相關圖片;
S2、所述步驟S1中搜索到的圖片集作為訓練樣本數據,對樣本圖片中的目標圖像進行標注;
S3、將所述步驟S2中標注過的樣本圖片集交給訓練機進行模式訓練,得到具備識別目標圖像能力的識別引擎;
S4、所述識別引擎在全網進行全網爬蟲搜索相關信息并進行識別。
2.如權利要求1所述的輿情監測方法,其特征在于,所述步驟S3模式訓練進一步包括目標檢測訓練和分類訓練。
3.如權利要求2所述的輿情監測方法,其特征在于,所述目標檢測訓練根據圖像物體檢測模型進行目標檢測與提取,所述圖像物體檢測模型基于卷積神經網絡建立。
4.如權利要求2所述的輿情監測方法,其特征在于,所述分類訓練對目標檢測訓練提取的結果進行二分類訓練,人工將提取的結果標注為錄入物體和非錄入物體。
5.如權利要求1所述的輿情監測方法,其特征在于,所述輿情監測方法進一步包括將識別結果進行統計整理并提交在網頁上顯示,顯示結果包括純圖片、圖片&文字、純文字的聲量和純圖片、圖片&文字、純文字的互動量。
6.如權利要求1所述的輿情監測方法,其特征在于,所述步驟S1和S4均采用爬蟲系統搜索,所述爬蟲系統為全網分布式爬蟲系統,由JAVA編寫,采取多線程并行抓取文本+圖片的模式,所述步驟S1根據信息關鍵字搜索部分圖片作為樣本圖片,所述步驟S4搜索全網所有圖片。
7.如權利要求6所述的輿情監測方法,其特征在于,所述爬蟲系統搜索包括如下步驟:
1)、通過廣度優先算法遍歷指定超鏈接對應的網站;
2)、對網站的返回解析出相關圖片的鏈接;
3)、對步驟2中獲得的鏈接進行圖片的下載。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州圖匠數據科技有限公司,未經廣州圖匠數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710280955.0/1.html,轉載請聲明來源鉆瓜專利網。





