[發明專利]廣告詞違禁檢測模型的訓練方法、檢測方法及裝置有效
| 申請號: | 202010024078.2 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN111241825B | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 胡盼盼;周玥;趙茜;佟博;高瑋 | 申請(專利權)人: | 廣東博智林機器人有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/126;G06F16/35 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 蔣姍 |
| 地址: | 528000 廣東省佛山市順德區北滘鎮順江*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 廣告詞 違禁 檢測 模型 訓練 方法 裝置 | ||
本申請提供一種廣告詞違禁檢測模型的訓練方法、檢測方法及裝置,廣告詞違禁檢測模型的訓練方法,包括:獲取訓練樣本集,每個訓練樣本包括構成單個樣本句子的樣本詞序列及對應每個樣本詞序列的標簽序列;將每個樣本詞序列中的詞匯表示為獨熱編碼,并獲得每個樣本詞序列的編碼矩陣;基于每個樣本詞序列的編碼矩陣及神經網絡模型,得到每個樣本詞序列中的詞匯屬于違禁詞匯的幾率;對神經網絡模型的參數進行更新,得到廣告詞違禁檢測模型。本申請通過自注意力機制,對廣告詞進行深層次的語義分析,使得訓練得到的廣告詞違禁檢測模型能挖掘廣告詞深層次的語義信息,從而更好地對廣告詞進行違禁檢測,減少誤判或漏判的情形。
技術領域
本申請涉及人工智能技術領域,具體而言,涉及一種廣告詞違禁檢測模型的訓練方法、檢測方法及裝置。
背景技術
廣告詞的違禁檢測是對廣告詞進行檢查的核心步驟,廣告法中列明了一系列的違禁詞匯及違禁表達以供參考。
目前,廣告詞的違禁檢測主要是對廣告詞進行直接的違禁詞匯匹配或違禁表達的正則化匹配,通過此種方式可以有效地檢測出大部分違禁廣告詞,但對于小部分廣告詞仍然存在誤判或者漏判的情形,例如,廣告詞“這個款式不能說是最流行的,但可以說是相當流行于中老年群體的”的違禁檢測,因為該廣告詞含有“最流行”一詞,所以通過此種方式檢測得到的是該廣告詞違禁,而實質上該廣告詞并不屬于違禁的情況。
發明內容
本申請實施例的目的在于提供一種廣告詞違禁檢測模型的訓練方法、檢測方法及裝置,通過自注意力機制,挖掘廣告詞各個詞匯間的關系,對廣告詞進行深層次的語義分析,以訓練神經網絡模型,得到廣告詞違禁檢測模型,使得廣告詞違禁檢測模型能挖掘廣告詞深層次的語義信息,從而更好地對廣告詞進行違禁檢測,減少誤判或漏判的情形,提高廣告詞違禁檢測的準確率。
第一方面,本申請實施例提供了一種廣告詞違禁檢測模型的訓練方法,包括:
獲取訓練樣本集,每個訓練樣本包括構成單個樣本句子的樣本詞序列及對應每個樣本詞序列的標簽序列;
將每個樣本詞序列中的詞匯表示為獨熱編碼,并獲得每個樣本詞序列的編碼矩陣;
基于神經網絡模型的參數矩陣,將所述每個樣本詞序列的編碼矩陣轉換為每個樣本詞序列中詞匯對應的三個轉化向量;
基于所述每個樣本詞序列中詞匯對應的三個轉化向量,對所述每個樣本詞序列中的詞匯進行自注意力機制處理,得到每個樣本詞序列中詞匯的注意力向量;
基于每個樣本詞序列中詞匯的位置信息,得到每個樣本詞序列中詞匯的位置向量;
基于所述每個樣本詞序列中詞匯的注意力向量及所述每個樣本詞序列中詞匯的位置向量,得到每個樣本詞序列中詞匯的目標向量;
基于所述每個樣本詞序列中詞匯的目標向量及神經網絡模型的參數向量,得到每個樣本詞序列中的詞匯屬于違禁詞匯的幾率;
基于每個樣本詞序列的標簽序列、所述每個樣本詞序列中的詞匯屬于違禁詞匯的幾率及神經網絡模型的損失函數,對神經網絡模型的參數進行更新,得到廣告詞違禁檢測模型。
在上述實現過程中,本申請實施例的廣告詞違禁檢測模型的訓練方法,獲取訓練樣本集,每個訓練樣本包括構成單個樣本句子的樣本詞序列及對應每個樣本詞序列的標簽序列,以違禁詞匯的檢測作為序列標注任務,通過自注意力機制,挖掘廣告詞各個詞匯間的關系,對廣告詞進行深層次的語義分析,以訓練神經網絡模型,并對神經網絡模型的參數進行更新,得到廣告詞違禁檢測模型,使得該廣告詞違禁檢測模型在用于廣告詞的違禁檢測時能挖掘廣告詞深層次的語義信息,從而更好地對廣告詞進行違禁檢測,減少誤判或漏判的情形,提高廣告詞違禁檢測的準確率。
進一步地,所述基于神經網絡模型的參數矩陣,將所述每個樣本詞序列的編碼矩陣轉換為每個樣本詞序列中詞匯對應的三個轉化向量,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東博智林機器人有限公司,未經廣東博智林機器人有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010024078.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法以及相關設備
- 下一篇:一種設備管理系統及方法





