[發(fā)明專利]基于自然語義的敏感文本識別方法和裝置在審
| 申請?zhí)枺?/td> | 202010012173.0 | 申請日: | 2020-01-07 |
| 公開(公告)號: | CN111209373A | 公開(公告)日: | 2020-05-29 |
| 發(fā)明(設(shè)計)人: | 萬淼;孫彥芬;王歆怡;陳錦;王禹 | 申請(專利權(quán))人: | 北京啟明星辰信息安全技術(shù)有限公司;中國信息安全測評中心 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/31 |
| 代理公司: | 北京科石知識產(chǎn)權(quán)代理有限公司 11595 | 代理人: | 徐紅崗 |
| 地址: | 100193 北京市海淀區(qū)東*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 自然 語義 敏感 文本 識別 方法 裝置 | ||
1.一種基于自然語義的敏感文本識別方法,其特征在于,包括以下步驟:
獲取基于自然語料的海量語料詞向量庫;
對樣本文檔進行分詞;
對樣本文檔進行逐詞向量化,修正所述海量語料詞向量庫,建立基于樣本文檔中生詞的小語料詞向量庫;
基于修正后的所述海量語料詞向量庫和小語料詞向量庫,對樣本文檔進行向量化分析,提取樣本文檔指紋特征;
對待測文檔依序進行分詞、逐詞向量化、以及文檔向量化分析,得到其指紋特征;
對待測文檔與樣本文檔進行指紋特征對比,識別出敏感的待測文檔。
2.根據(jù)權(quán)利要求1所述的敏感文本識別方法,其特征在于,所述獲取基于自然語料的海量語料詞向量庫的方法包括:
使用自然語言處理模型,對自然語料庫進行訓練,得到所述海量語料詞向量庫。
3.根據(jù)權(quán)利要求1所述的敏感文本識別方法,其特征在于,所述對樣本文檔進行逐詞向量化,修正所述海量語料詞向量庫,建立基于樣本文檔中生詞的小語料詞向量庫,包括:
將樣本文檔分詞后得到的所有詞匯作為輸入,逐個在所述海量語料詞向量庫中定位該詞的詞向量;
依據(jù)該詞與樣本文檔中其他詞之間的關(guān)系,修正該詞的詞向量;
不在所述海量語料詞向量庫里的生詞,根據(jù)該詞所在文檔上下文進行詞向量分析,得到詞向量,保存至小語料詞向量庫,并隨新詞的加入不斷更新所述小語料詞向量庫。
4.根據(jù)權(quán)利要求1或2所述的敏感文本識別方法,其特征在于,采用Word2Vec中使用negative sampling優(yōu)化加速的skip-gram模型,對自然語料庫進行訓練得到所述海量語料詞向量庫,或修正所述海量語料詞向量庫。
5.根據(jù)權(quán)利要求3所述的敏感文本識別方法,其特征在于:對所述不在海量語料詞向量庫里的生詞,采用Nonce2Vec方法,根據(jù)該詞所在文檔上下文進行詞向量分析,得到詞向量。
6.根據(jù)權(quán)利要求1所述的敏感文本識別方法,其特征在于,采用SIF算法,基于修正后的所述海量語料詞向量庫和小語料詞向量庫,對樣本文檔進行向量化分析,提取樣本文檔指紋特征。
7.根據(jù)權(quán)利要求1所述的敏感文本識別方法,其特征在于,所述對待測文檔與樣本文檔進行指紋特征對比,識別出敏感的待測文檔,包括:
計算待測文檔與樣本文檔指紋的余弦相似度;
如果相似度高于門限值,則將當前待測文檔歸為敏感文檔。
8.根據(jù)權(quán)利要求1所述的敏感文本識別方法,其特征在于,所述對待測文檔與樣本文檔進行指紋特征對比,識別出敏感的待測文檔之后,還包括:
輸出被歸為敏感文檔的待測文檔對應(yīng)的樣本文檔序號,并完成告警。
9.一種應(yīng)用權(quán)利要求1-8中任一項所述敏感文本識別方法的敏感文本識別裝置,其特征在于,包括:
分詞模塊,用于對樣本文檔和待測文檔進行中文分詞;
詞向量化模塊,用于基于海量語料詞向量庫,對樣本文檔進行逐詞向量化;
文檔指紋計算模塊,用于分別對樣本文檔和待測文檔進行向量化分析,提取其指紋特征;
文檔指紋相似度計算模塊,用于對待測文檔與樣本文檔進行指紋特征對比,識別出敏感的待測文檔。
10.根據(jù)權(quán)利要求9所述的敏感文本識別裝置,其特征在于,還包括:
自然語料預(yù)訓練模塊,用于對自然語料進行訓練,得到海量語料詞向量庫。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京啟明星辰信息安全技術(shù)有限公司;中國信息安全測評中心,未經(jīng)北京啟明星辰信息安全技術(shù)有限公司;中國信息安全測評中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010012173.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





