[發明專利]微博廣告博文識別方法及裝置有效
| 申請號: | 201310046176.6 | 申請日: | 2013-02-05 |
| 公開(公告)號: | CN103970801B | 公開(公告)日: | 2019-03-26 |
| 發明(設計)人: | 張國強 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 廣告 識別 方法 裝置 | ||
1.一種微博廣告博文識別方法,其特征在于,包括:
以已知廣告博文和非廣告博文為樣本,創建微博過濾器;
基于所述微博過濾器及貝葉斯算法對當前微博博文進行廣告識別;
其中,在基于所述微博過濾器及貝葉斯算法對當前微博博文進行廣告識別之后,所述方法還包括:根據識別出的廣告博文和非廣告博文,重新進行學習,更新所述微博過濾器;
其中,所述以已知廣告博文和非廣告博文為樣本,創建微博過濾器的步驟包括:收集若干已知廣告博文和非廣告博文分別組成廣告博文集和非廣告博文集,作為樣本;對所述廣告博文集和非廣告博文集中的每一篇博文進行分詞,得到每一篇博文的單詞序列;計算獲取所述廣告博文集中每一單詞在該廣告博文集中出現的概率;計算獲取所述非廣告博文集中每一單詞在該非廣告博文集中出現的概率;根據計算獲取的概率,對應建立所述廣告博文集和非廣告博文集中每一單詞和該單詞在所述廣告博文集中出現的概率的對應關系哈希表或該單詞在非廣告博文集中出現的概率的對應關系哈希表;基于所述單詞在廣告博文集中出現的概率的對應關系哈希表與所述單詞在非廣告博文集中出現的概率的對應關系哈希表,根據貝葉斯算法建立廣告博文集中,基于對應單詞出現廣告博文的概率與該單詞的映射關系哈希表,得到廣告博文過濾器;或者
所述以已知廣告博文和非廣告博文為樣本,創建微博過濾器的步驟包括:收集若干已知廣告博文和非廣告博文分別組成廣告博文集和非廣告博文集,作為樣本;對所述廣告博文集和非廣告博文集中的每一篇博文進行分詞,得到每一篇博文的單詞序列;計算獲取所述廣告博文集中每一單詞在該廣告博文集中出現的概率;計算獲取所述非廣告博文集中每一單詞在該非廣告博文集中出現的概率;根據計算獲取的概率,對應建立所述廣告博文集和非廣告博文集中每一單詞和該單詞在所述廣告博文集中出現的概率的對應關系哈希表或該單詞在非廣告博文集中出現的概率的對應關系哈希表;基于所述單詞在廣告博文集中出現的概率的對應關系哈希表與所述單詞在非廣告博文集中出現的概率的對應關系哈希表,根據貝葉斯算法建立非廣告博文集中,基于對應單詞出現非廣告博文的概率與該單詞的映射關系哈希表,得到非廣告博文過濾器。
2.根據權利要求1所述的方法,其特征在于,所述基于微博過濾器及貝葉斯算法對當前微博博文進行廣告識別的步驟包括:
對當前微博博文進行分詞和向量轉換;
將轉換得到的向量輸入所述微博過濾器中,并結合貝葉斯算法和全概率公式計算出當前微博博文為廣告博文的概率;
若當前微博博文為廣告博文的概率超過預定閾值時,判定該微博博文為廣告博文。
3.根據權利要求2所述的方法,其特征在于,設定所述預定閾值的步驟包括:
基于已知的廣告博文集和非廣告博文集計算統計獲取所述預定閾值。
4.根據權利要求1至3中任意一項所述的方法,其特征在于,還包括:
在對相應的博文進行分詞時,去除不符合預定條件的詞和/或選取特定的詞。
5.根據權利要求4所述的方法,其特征在于,還包括:
在對相應的博文進行分詞后,對分詞得到的單詞進行多元的上下文組合。
6.根據權利要求2所述的方法,其特征在于,所述基于微博過濾器及貝葉斯算法對當前微博博文進行廣告識別的步驟進一步還包括:
在計算當前微博博文為廣告博文的概率時,若當前微博博文中一單詞沒有出現在所述微博過濾器中,則忽略計算該單詞。
7.根據權利要求2所述的方法,其特征在于,所述基于微博過濾器及貝葉斯算法對當前微博博文進行廣告識別的步驟進一步還包括:
結合預定規則識別當前微博博文是否為廣告博文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310046176.6/1.html,轉載請聲明來源鉆瓜專利網。





