[發明專利]敏感詞檢測模型的訓練方法和系統有效
| 申請號: | 201711096041.5 | 申請日: | 2017-11-09 |
| 公開(公告)號: | CN110019795B | 公開(公告)日: | 2021-10-12 |
| 發明(設計)人: | 張鵬;張春榮 | 申請(專利權)人: | 普天信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 謝安昆;宋志強 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感 檢測 模型 訓練 方法 系統 | ||
本發明提供一種敏感詞檢測模型的訓練方法和系統,該方法包括:步驟A?1:將訓練語料庫的樣本數據輸入第一BLSTM模型和第二BLSTM模型,將第一BLSTM模型和第二BLSTM模型的輸出輸入CRF模型,CRF模型輸出輸入文本的敏感詞識別結果;基于CRF的識別結果與輸入文本的標記結果的差異,更新模型當前參數;步驟A?2:將訓練語料庫的樣本數據輸入當前第一BLSTM模型,將該第一BLSTM模型的輸出輸入CNN模型,CNN模型輸出輸入文本的字體識別結果;基于CNN的識別結果與輸入文本的字體差異,更新模型的當前參數。本發明提供的敏感詞檢測模型訓練方法和系統,可以得到性能更好的敏感詞檢測模型,相比于傳統DFA算法,對敏感詞的檢測不受敏感詞詞庫限制,對異性字具備一定的檢測能力。
技術領域
本發明涉及人工智能領域,特別涉及一種敏感詞檢測模型的訓練方法和系統。
背景技術
敏感詞檢測是現代網絡監控的必要功能。如何設計一個準確率高、魯棒性強的過濾算法是實現有效監控的必要條件。傳統敏感詞算法大多基于已有敏感詞庫,通過查找辭典來判斷語句中是否包含敏感詞。
在傳統算法中,應用最廣的應屬于確定有窮自動機DFA(Deterministic FiniteAutomaton)算法,其特征為:如圖1所示,有一個有限狀態集合和一些從一個狀態通向另一個狀態的邊,每條邊上標記有一個符號,其中一個狀態是初態,某些狀態是終態。
將圖1的抽象概念轉化為下述具體結構來說明算法實現。如圖2所示,通過S查找U、V,通過U查找V、P,通過V查找U、P。通過這樣的轉變,可以將狀態的轉變為使用集合的查找。
假設詞庫中存在敏感詞:日本人、日本士兵、王發達。那么需要構建一個什么樣的結構呢?
首先:查詢“日”→{本}、查詢″本″→{人、士兵}、查詢“人”→{null}、查詢“士”→{兵}。結構如圖3所示。進一步拓展,還可以得到圖4的查詢結構。
如此,可以將敏感詞庫構建成了一棵一棵樹,判斷一個詞是否為敏感詞時就大大減少了檢索的匹配范圍。比如要判斷日本人,根據第一個字確認要檢索的那棵樹,然后在這個樹中進行檢索。而后通過標識位來判斷一個敏感詞是否結束。
但是,DFA算法嚴重依賴于現有敏感詞庫,對于庫中不存在或含有干擾的詞則需要結合其他辦法來檢索甚至無能為力,如詞庫中有″我愛你″,而為避免被屏蔽而使用″莪愛伱″時則毫無辦法,而這恰恰是如今的網絡流行詞/語變化、演變的流行方案。
發明內容
本發明提供了一種敏感詞檢測模型的訓練方法和系統,通過本發明訓練方法得到的敏感詞檢測模型不受敏感詞詞庫限制,對異性字具備一定的檢測能力。
本發明提供一種敏感詞檢測模型的訓練方法,其中敏感詞檢測模型包含雙向長短記憶性網絡BLSTM模型和條件隨機場CRF模型,BLSTM模型包括第一BLSTM模型和第二BLSTM模型,訓練方法還包含卷積神經網絡CNN模型;
訓練方法包括以下步驟:
步驟A-1:保持CNN模型的當前參數不更新,訓練第一BLSTM模型、第二BLSTM模型和CRF模型:將訓練語料庫的樣本數據輸入第一BLSTM模型和第二BLSTM模型,將第一BLSTM模型和第二BLSTM模型的輸出輸入CRF模型,CRF模型輸出輸入文本的敏感詞識別結果;基于CRF的識別結果與輸入文本的標記結果的差異,以4個模型總損失函數的最大化為目標,更新第一BLSTM模型、第二BLSTM模型和CRF模型的參數作為該3個模型的當前參數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普天信息技術有限公司,未經普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711096041.5/2.html,轉載請聲明來源鉆瓜專利網。





