[發(fā)明專利]敏感詞詞典生成方法、裝置及存儲介質和電子設備在審
| 申請?zhí)枺?/td> | 201811501581.1 | 申請日: | 2018-12-10 |
| 公開(公告)號: | CN111310451A | 公開(公告)日: | 2020-06-19 |
| 發(fā)明(設計)人: | 陳希;杜永青 | 申請(專利權)人: | 北京沃東天駿信息技術有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/247 |
| 代理公司: | 北京德琦知識產(chǎn)權代理有限公司 11018 | 代理人: | 衣淑鳳;宋志強 |
| 地址: | 100032 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感 詞典 生成 方法 裝置 存儲 介質 電子設備 | ||
1.一種敏感詞詞典生成方法,其特征在于,該方法包括:
將每個非敏感用戶的每個交互文檔以及每個敏感用戶在距離當前時刻第一預設時長之前的每個交互文檔分別作為一個負樣本;
將每個敏感用戶在最近第二預設時長內的每個交互文檔分別作為一個正樣本;
對于在正負樣本集合中出現(xiàn)的每個詞,計算該詞對正樣本集合的逆文檔頻率以及該詞對負樣本集合的逆文檔頻率;
對于在正負樣本集合中出現(xiàn)的每個詞,根據(jù)該詞對正樣本集合的逆文檔頻率以及該詞對負樣本集合的逆文檔頻率,計算該詞的逐點KL散度,若計算出的逐點KL散度小于預設第一閾值,則將該詞加入敏感詞詞典庫。
2.根據(jù)權利要求1所述的方法,其特征在于,所述計算該詞對正樣本集合的逆文檔頻率包括:
IDF1i=lg(|D1|/(1+|{j:wi∈d1j}|))
其中,D1表示正樣本集合,|D1|表示D1中包含的正樣本的總數(shù),wi表示在正負樣本集合中出現(xiàn)的第i個詞,d1j表示正樣本集合中的第j個正樣本,|{j:Wi∈d1j}|表示包含詞wi的正樣本的總數(shù),IDF1i表示詞wi對正樣本集合的逆文檔頻率;
所述計算該詞對負樣本集合的逆文檔頻率包括:
IDF2i=lg(|D2|/(1+|{k:wi∈d2k}|))
其中,D2表示負樣本集合,|D2|表示D2中包含的負樣本的總數(shù),wi表示在正負樣本集合中出現(xiàn)的第i個詞,d2k表示負樣本集合中的第k個負樣本,|{k:Wi∈d2k}|表示包含詞wi的負樣本的總數(shù),IDF2i表示詞wi對負樣本集合的逆文檔頻率。
3.根據(jù)權利要求2所述的方法,其特征在于,所述計算該詞的逐點KL散度包括:
Dkl_idf(IDF1i||IDF2i)=IDF1i*ln(IDF1i/(IDF2i+ε))
其中,Dkl_idf(IDF1i||IDF2i)為詞wi的逐點KL散度,ε為預設的防止分母為0的小常數(shù)。
4.根據(jù)權利要求1至3任一所述的方法,其特征在于,所述預設第一閾值≤-0.5。
5.根據(jù)權利要求1所述的方法,其特征在于,當計算出的逐點KL散度小于預設第一閾值時,將該詞加入敏感詞詞典庫之前進一步包括:
計算該詞對正樣本集合的詞頻,當詞頻大于預設第二閾值時,將該詞加入敏感詞詞庫。
6.根據(jù)權利要求1所述的方法,其特征在于,所述將該詞加入敏感詞詞典庫之后進一步包括:
采用word2vec算法,將每一交互文檔轉換成一個向量空間,向量空間中的每個向量對應交互文檔中的一個詞;
對于每個向量空間,將該向量空間中的每個向量分別作為神經(jīng)網(wǎng)絡模型中的一個輸入向量,將該向量空間中指定的一個向量作為神經(jīng)網(wǎng)絡模型的輸出向量,對神經(jīng)網(wǎng)絡模型進行訓練,得到訓練好的神經(jīng)網(wǎng)絡模型;
采用word2vec算法,將敏感詞詞典庫中的每個敏感詞轉換成一個向量,將所有敏感詞轉換成的向量劃分為多個向量空間,將每個向量空間中的向量分別輸入到神經(jīng)網(wǎng)絡模型進行計算,對計算得到的每個輸出向量分別采用word2vec算法轉換為詞,將轉換出的每個詞加入敏感詞詞典庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京沃東天駿信息技術有限公司,未經(jīng)北京沃東天駿信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811501581.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





