[發明專利]基于統計規律的資訊內容異常檢測方法在審
| 申請號: | 201610920198.4 | 申請日: | 2016-10-21 |
| 公開(公告)號: | CN106649261A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 張勇 | 申請(專利權)人: | 天津海量信息技術股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 300000 天津市濱海新區*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 統計 規律 資訊 內容 異常 檢測 方法 | ||
技術領域
本發明涉及數據檢索領域,具體涉及一種基于統計規律的資訊內容異常檢測方法。
背景技術
隨著互聯網資訊的快速傳播,基于人工識別的資訊內容檢測方式已經不能滿足各大媒體的業務發展要求,人工的檢測方式準確度和工作效率難以保證。
發明內容
本發明的目的是針對現有的技術存在的不足,提出了一種工作效率高的基于統計規律的資訊內容異常檢測方法。
本發明所解決的技術問題采用以下技術方案來實現一種基于統計規律的資訊內容異常檢測方法,包括如下步驟:步驟一、準備語料;步驟二、將語料進行nlp分詞;步驟三、分詞結果構成多維向量;步驟四、多維向量積攢成多維向量庫;步驟五、形成多維向量庫擴展;步驟六、需要檢測時準備目標資訊;步驟七、將目標資訊進行nlp分詞;步驟八、分詞結果構成多維向量;步驟九、在多維向量庫內檢測目標資訊是否正確;步驟十、計算出詞項的概率大于閾值;步驟十一、檢測通過;步驟十二、計算出詞項的概率小于閾值;步驟十三、檢測不通過;步驟十四、預警處理。
本發明的有益效果為:提出了一種基于統計規律的資訊內容異常檢測方法,通過基于統計規律的資訊內容錯誤檢測方法,可以給媒體機構提供智能的資訊內容錯誤提醒機制,減少人為的錯誤發生,保障互聯網的媒體事業健康穩定的發展。
相比采用黑白名單,簡單的過濾敏感詞,本發明更能高效準確的檢測資訊內容的錯誤。
附圖說明
圖1是本發明的基于統計規律的資訊內容異常檢測方法的流程圖。
具體實施方式
參照附圖,一種基于統計規律的資訊內容異常檢測方法,包括如下步驟:步驟一、準備語料;步驟二、將語料進行nlp分詞;步驟三、分詞結果構成多維向量;步驟四、多維向量積攢成多維向量庫;步驟五、形成多維向量庫擴展;步驟六、需要檢測時準備目標資訊;步驟七、將目標資訊進行nlp分詞;步驟八、分詞結果構成多維向量;步驟九、在多維向量庫內檢測目標資訊是否正確;步驟十、計算出詞項的概率大于閾值;步驟十一、檢測通過;步驟十二、計算出詞項的概率小于閾值;步驟十三、檢測不通過;步驟十四、預警處理。
本發明提出了一種基于統計規律的資訊內容異常檢測方法,通過基于統計規律的資訊內容錯誤檢測方法,可以給媒體機構提供智能的資訊內容錯誤提醒機制,減少人為的錯誤發生,保障互聯網的媒體事業健康穩定的發展。
相比采用黑白名單,簡單的過濾敏感詞,本發明更能高效準確的檢測資訊內容的錯誤。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津海量信息技術股份有限公司,未經天津海量信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610920198.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:汽車座椅(前排)
- 下一篇:一種社交媒體中企業硬件設施敏感信息防護方法





