[發明專利]一種實現互聯網宣傳監測目標評估的方法及裝置有效
| 申請號: | 201310676421.1 | 申請日: | 2013-12-11 |
| 公開(公告)號: | CN103646078B | 公開(公告)日: | 2017-01-25 |
| 發明(設計)人: | 王君鶴;曲武 | 申請(專利權)人: | 北京啟明星辰信息安全技術有限公司;北京啟明星辰信息技術股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司11262 | 代理人: | 白瑩,栗若木 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 互聯網 宣傳 監測 目標 評估 方法 裝置 | ||
1.一種實現互聯網宣傳監測目標評估的方法,其特征在于,包括:
根據配置信息從選定的數據源中獲取宣傳監測目標的網頁信息;
對獲取的各網頁信息進行網站特征字分離,以獲得相應的標題、正文、統計正文字數信息;
對所述獲得的各網頁信息中的標題和正文進行分詞處理且提取關鍵字,并分別計算宣傳監測目標的各網頁信息的信息量;
根據各網頁信息的信息量確定宣傳監測目標的宣傳力度信息。
2.根據權利要求1所述的方法,其特征在于,所述信息量的計算為:網頁信息的中文字數與相同網頁的個數的乘積;
所述根據各網頁信息的信息量確定宣傳監測目標的宣傳力度信息包括:
將所述各網頁信息的信息量與相應的權重進行乘積計算,并對所有網頁信息的乘積計算進行積分,獲得宣傳監測目標的宣傳力度信息;其中,權重為:網頁信息中,若標題中包含關鍵字,則賦值權重為ρ;若正文包含關鍵字,則賦值權重為1;當都包含關鍵字,則賦值為ρ+1;其中ρ大于1。
3.根據權利要求1所述的方法,其特征在于,所述選定的數據源為:新聞元搜索、和/或定點網站。
4.根據權利要求1所述的方法,其特征在于,在對所述網頁信息進行網站特征字分離之前,該方法還包括:對所述獲取的網頁信息進行鏈接去重。
5.根據權利要求4所述的方法,其特征在于,所述選定的數據源為新聞元搜索,且所述鏈接為未加密鏈接時,所述鏈接去重包括:
采用布隆過濾器Bloom?Filter算法過濾重復鏈接;過濾后,
選擇任意所述新聞元搜索中的一個的網頁信息作為初始列表;
采用simHash方法計算所述新聞元搜索中的其余新聞元搜索獲得的網頁信息的散列哈希Hash值,根據Hash值判斷是否發生碰撞;發生碰撞,則刪除鏈接;未發生碰撞,則更新初始列表。
6.根據權利要求4所述的方法,其特征在于,所述選定的數據源為新聞元搜索,且所述鏈接為加密鏈接時,所述鏈接去重包括:
將加密鏈接和所述過濾后的未加密鏈接的原始網頁,通過網站特征字分離出標題、正文、網站欄目、轉載來源、點擊率、評論率,統計正文字數信息;
對比加密鏈接的網頁與未加密鏈接的網頁,生成未加密鏈接的網站和欄目的Hash散列;
采用simHash的方法計算加密鏈接的網站和欄目的Hash值,如果都產生碰撞,則對比從網頁中分離出的正文的字數,如果字數也相同則視為相同鏈接,保留相同鏈接中的一個鏈接,其余刪除。
7.根據權利要求4所述的方法,其特征在于,所述選定的數據源為定點網站,所述鏈接去重包括:
判斷所述獲得的網頁地址是否為列表鏈接地址,當為列表鏈接地址時,刪除該網頁信息的鏈接地址;若不是,則繼續進行網站特征字分離。
8.根據權利要求7所述的方法,其特征在于,在進行網站特征字分離后,該方法還包括:將從定點網站獲取的網頁信息的正文進行simHash算法分析,將判定為相似的新聞進行合并。
9.根據權利要求4~8任一項所述的方法,其特征在于,獲得所述鏈接去重信息后,該方法還包括:將所述鏈路去重后的鏈接進行鏈接類型識別,將獲得的鏈接識別區分為:原文鏈接、列表鏈接和引用鏈接;刪除列表鏈接和引用鏈接。
10.根據權利要求9所述的方法,其特征在于,該方法還包括:對原文鏈接對應的網頁信息的正文,進行正確性判斷,刪除正文正確性判斷為無效的網頁信息;
所述正確性判斷為:對網頁信息的正文進行字數統計,當正文字數不超過20字時,判斷為該正文對應的網頁信息為無效。
11.根據權利要求9所述的方法,其特征在于,該方法還包括:周期性獲取宣傳監測目標的新增網頁信息。
12.根據權利要求1所述的方法,其特征在于,該方法還包括:對分詞處理后的網頁信息進行類型詞識別,根據專家知識數據庫的類型詞,獲取網頁信息中在同一領域不同傾向上專家知識數據庫里存在的關鍵字,進行企業不同類型詞對應的宣傳力度信息計算,獲得企業在不同傾向的宣傳力度比對信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京啟明星辰信息安全技術有限公司;北京啟明星辰信息技術股份有限公司,未經北京啟明星辰信息安全技術有限公司;北京啟明星辰信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310676421.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種機械臂末端操作工具組件
- 下一篇:一種機械臂





