[發明專利]一種多層級用戶評論安全審核的模型構建方法在審
| 申請號: | 202010825591.1 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN111966944A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 常兵;印忠文;晏玉珽;曹揚 | 申請(專利權)人: | 中電科大數據研究院有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/33;G06F16/35 |
| 代理公司: | 貴州派騰知識產權代理有限公司 52114 | 代理人: | 宋妍麗 |
| 地址: | 550000 貴州省貴陽市貴陽*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多層 用戶 評論 安全 審核 模型 構建 方法 | ||
1.一種多層級用戶評論安全審核的模型構建方法,其特征在于:包括如下步驟:
①構建詞庫:基于數據采集技術獲取用戶評論數據集;
②構建正負樣本:從用戶評論數據集中構建評論正樣本和評論負樣本作為樣本數據;
③迭代優化:切分樣本數據為訓練集和測試集,以訓練集的評論正樣本和評論負樣本作為訓練數據進行多周期迭代訓練用戶評論審核模型;
④輸出審核結果:輸出最終所檢測的審核結果,同時將錯誤預測的結果用于優化敏感詞詞典。
2.如權利要求1所述的多層級用戶評論安全審核的模型構建方法,其特征在于:所述步驟①中,基于用戶評論數據集構建評論內容安全審核的特征庫和模型訓練樣本,步驟②中構建的評論正樣本和評論負樣本疊加至模型訓練樣本中作為樣本數據。
3.如權利要求1所述的多層級用戶評論安全審核的模型構建方法,其特征在于:所述步驟②包括如下步驟:
L1.構建敏感詞庫:構建多種類別、多種敏感因子的多層級敏感詞庫;
L2.基于敏感因子的評論檢測:根據不同類別和不同敏感因子權重的敏感詞庫的語義相似度匹配結果,對用戶評論數據集進行不同層次的檢測審核;
L3.構建評論情感分析模型:結合用戶評論數據集和情感極性詞庫,進行評論情感分析模型的訓練,情感極性包含的類別有“正向”、“負向”和“中性”;
L4.對基于敏感因子的評論檢測結果進行情感極性分析:對不同層次的評論審核結果進行情感極性分析。
L5.構建用戶評論正負樣本:結合敏感因子的檢測結果和評論情感極性分析結果,構建用于模型訓練的評論正負樣本。
4.如權利要求1所述的多層級用戶評論安全審核的模型構建方法,其特征在于:所述步驟③包括如下步驟:
N1.用戶評論審核模型協同訓練:切分樣本數據,進行數據特征工程并構建特征庫,采用多個分類器進行協同訓練,進行樣本標簽預測,對比修正和迭代優化模型,獲得用戶評論審核模型;
N2.加載用戶評論審核模型:加載已訓練好的用戶評論審核模型;
N3.模型預測:結合已訓練好的模型,對待測樣本進行預測,獲取高置信度的數據,依據預測結果對模型進行迭代優化。
5.如權利要求2所述的多層級用戶評論安全審核的模型構建方法,其特征在于:所述特征庫包括敏感詞庫、詞向量庫、諧音庫、拼音庫。
6.如權利要求1所述的多層級用戶評論安全審核的模型構建方法,其特征在于:所述步驟①之后,還包括如下步驟:
數據預處理:對用戶評論數據集進行清洗與過濾、字符映射、繁簡轉換等預處理操作。
7.如權利要求3所述的多層級用戶評論安全審核的模型構建方法,其特征在于:所述步驟L4包括如下步驟:
L4.1-結合多種類別和敏感詞權重影響因子,采用DFA算法進行不同層次的語義相似度匹配;
L4.2-判斷一級篩選中評論內容是否存在一級權重影響因子的敏感信息,若有,則將其判斷為敏感評論;否則進行二級篩選;
L4.3-判斷二級篩選中評論內容是否存在二級權重影響因子的敏感信息,若有,則將其標記為疑似敏感評論;否則將其標記為正常評論,進入步驟N3的模型預測;
L4.4-在步驟L4.3的基礎上,依據敏感類別進行多詞匯組合的敏感檢測,若同時存在多級敏感組合詞則為“敏感信息”,否則為“疑似敏感”,同時動態地設定情感分析的閾值sa_threshold,對疑似敏感評論進行情感極性分析,將情感分析為負向且分值小于sa_threshold的評論內容判斷為敏感評論。
8.如權利要求4所述的多層級用戶評論安全審核的模型構建方法,其特征在于:所述步驟N2包括如下步驟:
N2.1-切分S7所構造的正負樣本數據集,平均分成n份;
N2.2-對切分的數據集進行數據特征工程并構建特征庫;
N2.3-結合不同分類器將不同的訓練樣本進行向量化表示;
N2.4-在N2.2和N2.3的基礎上,構建n個差異性較大的分類器,結合分類器特點分別選用對應的文本向量化表示,訓練得到初步訓練好的n個分類器;
N2.5-利用N2.4中已訓練好的分類器Cn對未標注的數據集進行協同訓練,依據各分類器所預測的結果,輸出置信度比較高的樣本數據,將其添加到樣本數據中,用于修正樣本數據和迭代優化模型;
N2.6-基于數據集和場景功能設定終止條件如迭代次數、優化閾值,判斷是否達到終止條件,若否,則重復上述N2.1~N2.5,若是,則保存最終的分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電科大數據研究院有限公司,未經中電科大數據研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010825591.1/1.html,轉載請聲明來源鉆瓜專利網。





