[發(fā)明專利]一種基于詞庫與詞向量模型的敏感語料檢測方法有效
| 申請?zhí)枺?/td> | 201910995383.3 | 申請日: | 2019-10-18 |
| 公開(公告)號: | CN110727880B | 公開(公告)日: | 2022-06-17 |
| 發(fā)明(設(shè)計(jì))人: | 李輝;陳鵬 | 申請(專利權(quán))人: | 西安電子科技大學(xué);中國電子科技集團(tuán)公司電子科學(xué)研究院 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/33;G06F40/284 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 61200 | 代理人: | 房鑫 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞庫 向量 模型 敏感 語料 檢測 方法 | ||
1.一種基于詞庫與詞向量模型的敏感語料檢測方法,其特征在于,包括以下步驟:
1)獲取開放文本語料,然后對開放文本語料進(jìn)行預(yù)處理,其中,所述開放文本語料包括中文維基百科語料及新聞?wù)Z料;
2)對步驟1)處理后的中文維基百科語料與新聞?wù)Z料進(jìn)行合并,得合并語料,同時(shí)將敏感詞庫加入到分詞工具中,再利用分詞工具對合并語料進(jìn)行分詞,再過濾掉分詞結(jié)果中的停用詞,其中,敏感詞庫來源于網(wǎng)上開源的敏感詞庫;
3)使用開放工具word2vec對過濾停用詞后的分詞結(jié)果進(jìn)行無監(jiān)督訓(xùn)練,并根據(jù)無監(jiān)督訓(xùn)練的結(jié)果構(gòu)建詞向量模型;
4)獲取待檢測文本,將敏感詞庫加載到分詞工具中,對待檢測文本進(jìn)行分詞,并對分詞結(jié)果過濾停用詞,得分詞表,同時(shí)構(gòu)建相似詞詞典;
5)從分詞表中選取未被檢測的詞,判斷檢測敏感詞庫中是否含有該未被檢測的詞,若敏感詞庫中含有該未被檢測的詞,則判斷該未被檢測的詞敏感,否則,以該未被檢測的詞作為鍵查詢相似詞詞典,若相似詞詞典中含有該鍵,得相似詞表,檢測敏感詞庫中是否含有相似詞表中的詞,若敏感詞庫中至少有一個(gè)詞屬于該相似詞表,則判定該未被檢測的詞敏感,否則,認(rèn)為未被檢測的詞非敏感;若相似詞詞典中不含有該鍵,則利用詞向量模型計(jì)算該未被檢測的詞與詞向量模型中所有詞的余弦相似度,取余弦相似度最高的前n個(gè)詞,檢測敏感詞庫中是否含有所述n個(gè)詞,若敏感詞庫中至少有一個(gè)詞屬于所述n個(gè)詞,則判定該未被檢測的詞敏感,否則,認(rèn)為該未被檢測的詞非敏感,并將該未被檢測的詞與其n個(gè)相似詞作為鍵-值加入到相似詞詞典中;
6)重復(fù)步驟5)直至遍歷分詞表中的所有詞為止,完成基于詞庫與詞向量模型的敏感語料檢測。
2.根據(jù)權(quán)利要求1所述的基于詞庫與詞向量模型的敏感語料檢測方法,其特征在于,步驟1)中中文維基百科語料來源于維基百科的中文開放語料庫;
新聞?wù)Z料來源于搜狐新聞數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的基于詞庫與詞向量模型的敏感語料檢測方法,其特征在于,步驟1)中對中文維基百科語料進(jìn)行預(yù)處理的具體過程為:
利用開放工具WikiExtractor對中文維基百科語料進(jìn)行有效信息提取,提取有效信息后剔除有效信息文本中無效的標(biāo)簽,利用正則表達(dá)式將有效信息文本中的無用標(biāo)簽過濾出來,最后使用開放工具OpenCC將有效信息文本轉(zhuǎn)化為簡體中文。
4.根據(jù)權(quán)利要求1所述的基于詞庫與詞向量模型的敏感語料檢測方法,其特征在于,步驟1)中對新聞?wù)Z料進(jìn)行預(yù)處理的具體過程為:
采用正則表達(dá)式過濾與詞典知識相配合進(jìn)行新聞?wù)Z料主體內(nèi)容的提取。
5.根據(jù)權(quán)利要求1所述的基于詞庫與詞向量模型的敏感語料檢測方法,其特征在于,步驟2)中的分詞工具為開放的jieba工具,該分詞工具支持加載用戶自定義詞典進(jìn)行分詞;
所述停用詞從停用詞庫中獲取,該停用詞庫采用開源的哈工大停用詞表。
6.根據(jù)權(quán)利要求1所述的基于詞庫與詞向量模型的敏感語料檢測方法,其特征在于,步驟3)的具體操作為:
使用開放工具word2vec對過濾停用詞后的分詞結(jié)果進(jìn)行無監(jiān)督訓(xùn)練,得語料中每一個(gè)詞對應(yīng)的n維稠密數(shù)值向量,將所述n維稠密數(shù)值向量稱為詞向量,詞向量以實(shí)數(shù)向量的形式表示詞的語義信息,訓(xùn)練得到詞向量結(jié)果,并將該詞向量結(jié)果作為詞向量模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué);中國電子科技集團(tuán)公司電子科學(xué)研究院,未經(jīng)西安電子科技大學(xué);中國電子科技集團(tuán)公司電子科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910995383.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





