[發明專利]廣告詞違禁檢測模型的訓練方法、檢測方法及裝置有效
| 申請號: | 202010024078.2 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN111241825B | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 胡盼盼;周玥;趙茜;佟博;高瑋 | 申請(專利權)人: | 廣東博智林機器人有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/126;G06F16/35 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 蔣姍 |
| 地址: | 528000 廣東省佛山市順德區北滘鎮順江*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 廣告詞 違禁 檢測 模型 訓練 方法 裝置 | ||
1.一種廣告詞違禁檢測模型的訓練方法,其特征在于,包括:
獲取訓練樣本集,每個訓練樣本包括構成單個樣本句子的樣本詞序列及對應每個樣本詞序列的標簽序列;
將每個樣本詞序列中的詞匯表示為獨熱編碼,并獲得每個樣本詞序列的編碼矩陣;
基于神經網絡模型的參數矩陣,將所述每個樣本詞序列的編碼矩陣轉換為每個樣本詞序列中詞匯對應的三個轉化向量;
基于所述每個樣本詞序列中詞匯對應的三個轉化向量,對所述每個樣本詞序列中的詞匯進行自注意力機制處理,得到每個樣本詞序列中詞匯的注意力向量;
基于每個樣本詞序列中詞匯的位置信息,得到每個樣本詞序列中詞匯的位置向量;
基于所述每個樣本詞序列中詞匯的注意力向量及所述每個樣本詞序列中詞匯的位置向量,得到每個樣本詞序列中詞匯的目標向量;
基于所述每個樣本詞序列中詞匯的目標向量及神經網絡模型的參數向量,得到每個樣本詞序列中的詞匯屬于違禁詞匯的幾率;
基于每個樣本詞序列的標簽序列、所述每個樣本詞序列中的詞匯屬于違禁詞匯的幾率及神經網絡模型的損失函數,對神經網絡模型的參數進行更新,得到廣告詞違禁檢測模型。
2.根據權利要求1所述的廣告詞違禁檢測模型的訓練方法,其特征在于,所述基于神經網絡模型的參數矩陣,將所述每個樣本詞序列的編碼矩陣轉換為每個樣本詞序列中詞匯對應的三個轉化向量,包括:
將所述每個樣本詞序列的編碼矩陣分別與神經網絡模型的三個參數矩陣相乘,得到每個樣本詞序列對應的三個轉化矩陣,其中,每個樣本詞序列中的詞匯對應三個轉化向量。
3.根據權利要求1所述的廣告詞違禁檢測模型的訓練方法,其特征在于,所述基于所述每個樣本詞序列中詞匯對應的三個轉化向量,對所述每個樣本詞序列中的詞匯進行自注意力機制處理,得到每個樣本詞序列中詞匯的注意力向量,包括:
將單個樣本詞序列中單個詞匯的第一轉化向量分別與該樣本詞序列中所有詞匯的第二轉化向量相乘,并對相乘結果做softmax的運算,得到該詞匯的轉化幾率;
將該詞匯的轉化幾率與該樣本詞序列中所有詞匯的第三轉化向量對應相乘,并做求和運算,得到該詞匯的注意力向量。
4.根據權利要求1所述的廣告詞違禁檢測模型的訓練方法,其特征在于,所述每個樣本詞序列中詞匯的位置向量內部的數值通過以下公式計算得到:
P(pos,2i)=sin(pos/10000^(2i/h))
P(pos,2i+1)=cos(pos/10000^(2i/h))
其中,pos表示詞匯在樣本詞序列中的位置,i表示在向量P中的維度下標,h表示向量P的長度;
當詞匯的位置向量內部的數值在偶數維度時,應用正弦函數進行運算;當詞匯的位置向量內部的數值在奇數維度時,應用余弦函數進行運算。
5.根據權利要求1所述的廣告詞違禁檢測模型的訓練方法,其特征在于,所述基于所述每個樣本詞序列中詞匯的注意力向量及所述每個樣本詞序列中詞匯的位置向量,得到每個樣本詞序列中詞匯的目標向量,包括:
將所述每個樣本詞序列中詞匯的注意力向量與所述每個樣本詞序列中詞匯的位置向量對應相加,得到每個樣本詞序列中詞匯的目標向量。
6.根據權利要求1所述的廣告詞違禁檢測模型的訓練方法,其特征在于,所述基于所述每個樣本詞序列中詞匯的目標向量及神經網絡模型的參數向量,得到每個樣本詞序列中的詞匯屬于違禁詞匯的幾率,包括:
基于所述每個樣本詞序列中詞匯的目標向量,得到每個樣本詞序列的目標矩陣;
將所述每個樣本詞序列的目標矩陣與神經網絡模型的參數向量相乘,并通過sigmoid函數處理,得到每個樣本詞序列中的詞匯屬于違禁詞匯的幾率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東博智林機器人有限公司,未經廣東博智林機器人有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010024078.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法以及相關設備
- 下一篇:一種設備管理系統及方法





