[發明專利]一種廣告識別方法及計算機可讀存儲介質有效
| 申請號: | 201710980185.0 | 申請日: | 2017-10-19 |
| 公開(公告)號: | CN107657286B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 郭祥昊 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/211;G06F16/36;G06Q30/02 |
| 代理公司: | 泰和泰律師事務所 51219 | 代理人: | 祝海燕 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 廣告 識別 方法 計算機 可讀 存儲 介質 | ||
1.一種廣告識別方法,其特征在于,所述廣告識別方法包括以下步驟:
廣告識別步驟,其包括:
讀取非系統消息語料,該步驟包括至少讀取用戶ID和語料內容,并去掉語料內容中的表情符號;
將讀取的語料和廣告庫中的語料進行相似度匹配,基于相似度匹配結果確定所述語料是否為廣告;以及
廣告庫更新步驟,其包括:
將被確定為非廣告的非系統消息語料加入到在線語料庫;
獲取在線語料庫中存儲的多條語料的句子主干,通過相似度計算從中選擇句子主干放入在線主干庫;
基于獲取的句子主干出現的頻次以及用戶ID確定是否將句子主干放入廣告庫中,從而在確定放入廣告庫中的情況下更新廣告庫,該確定是否將句子主干放入廣告庫中的步驟包括:從在線主干庫中選擇長度和重復次數符合預定條件的句子主干,確定該主干對應的用戶ID,在預建立的廣告概率庫中該用戶ID對應的廣告概率高于預定概率值的情況下或者在廣告概率庫中不存在該用戶ID的情況下,將選擇的句子主干放入廣告庫中。
2.根據權利要求1所述的廣告識別方法,其特征在于:所述方法還包括:基于確定結果將非系統消息語料標記為廣告或非廣告;
在所述讀取非系統消息語料步驟之前還包括:
接收語料,基于系統字段匹配確定接收的語料是否為系統消息,并將判斷為系統消息的語料標記為非廣告。
3.根據權利要求1所述的廣告識別方法,其特征在于,所述方法還包括:
在聊天區顯示被確定為非廣告的語料,而不顯示被確定為廣告的語料。
4.根據權利要求1所述的廣告識別方法,其特征在于,所述獲取在線語料庫中存儲的多條語料的句子主干,并通過相似度計算從中選擇句子主干放入在線主干庫的步驟包括:
將所述在線語料庫中存儲的第一數量的語料中的語句基于語句相似度進行分類;
將至少含有預定條數語料的類中的語料中出現頻次低于預定頻次指標的字符刪除,獲得句子主干;
將各類中獲得的句子主干兩兩進行相似度計算,基于相似度以及句子主干出現的頻次選擇一條句子主干放入在線主干庫中。
5.根據權利要求4所述的廣告識別方法,其特征在于:
所述第一數量的語料指200條語料;
所述至少含有預定條數語料的類為至少含有5條語料的類。
6.根據權利要求4所述的廣告識別方法,其特征在于:
將所述在線語料庫中存儲的第一數量的語料中的語句基于語句相似度進行分類的步驟包括:
將第一數量的語料中的語句轉換成詞頻表示的one-hot向量;
計算向量間的余弦距離,將余弦距離大于預定值的向量歸為一類,對語料進行分類。
7.根據權利要求4所述的廣告識別方法,其特征在于,在將所述在線語料庫中存儲的第一數量的語料中的語句基于語句相似度進行分類的步驟之前還包括:
如果上述第一數量的語料中不同字符的個數≥第一數量值,則將每條語句中字頻≤字頻低限值的字符去掉,所述字頻低限值為3-5。
8.根據權利要求1-6中任意一項所述的廣告識別方法,其特征在于,所述讀取非系統消息語料的步驟還包括:讀取語料中的時間戳。
9.根據權利要求8所述的廣告識別方法,其特征在于,所述方法還包括:廣告概率庫中用戶ID對應的廣告概率的更新流程,該流程包括:
將讀取的非系統消息語料放入離線語料庫;
將所述離線語料庫中存儲的第二數量的語料基于用戶ID進行分割;
廣告概率計算和更新步驟,該步驟基于各用戶的語料數和/或各用戶的語料的時間戳計算該用戶ID發廣告的概率,并更新廣告概率庫中的該用戶ID的廣告概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710980185.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種平網印花花位定位裝置
- 下一篇:石墨消解器助手





