[發(fā)明專利]一種基于詞庫(kù)與詞向量模型的敏感語(yǔ)料檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910995383.3 | 申請(qǐng)日: | 2019-10-18 |
| 公開(kāi)(公告)號(hào): | CN110727880B | 公開(kāi)(公告)日: | 2022-06-17 |
| 發(fā)明(設(shè)計(jì))人: | 李輝;陳鵬 | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué);中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院 |
| 主分類號(hào): | G06F16/9536 | 分類號(hào): | G06F16/9536;G06F16/33;G06F40/284 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 61200 | 代理人: | 房鑫 |
| 地址: | 710071 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞庫(kù) 向量 模型 敏感 語(yǔ)料 檢測(cè) 方法 | ||
本發(fā)明公開(kāi)了一種基于詞庫(kù)與詞向量模型的敏感語(yǔ)料檢測(cè)方法,包括以下步驟:1)獲取開(kāi)放文本語(yǔ)料,對(duì)開(kāi)放文本語(yǔ)料進(jìn)行預(yù)處理,所述開(kāi)放文本預(yù)料包括中文維基百科語(yǔ)料及新聞?wù)Z料;2)對(duì)步驟1)處理后的中文維基百科語(yǔ)料與新聞?wù)Z料進(jìn)行合并,得合并語(yǔ)料,再利用分詞工具對(duì)合并語(yǔ)料進(jìn)行分詞,再過(guò)濾掉分詞結(jié)果中的停用詞;3)使用開(kāi)放工具word2vec對(duì)過(guò)濾停用詞后的分詞結(jié)果進(jìn)行無(wú)監(jiān)督訓(xùn)練,并根據(jù)無(wú)監(jiān)督訓(xùn)練的結(jié)果構(gòu)建詞向量模型;4)獲取待檢測(cè)文本,得分詞表,同時(shí)構(gòu)建相似詞詞典;5)利用相似詞詞典、詞向量模型及敏感詞庫(kù)對(duì)分詞表中的詞進(jìn)行敏感性檢測(cè),完成基于詞庫(kù)與詞向量模型的敏感語(yǔ)料檢測(cè),該方法對(duì)敏感詞的檢測(cè)能力較為優(yōu)異。
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,涉及一種基于詞庫(kù)與詞向量模型的敏感語(yǔ)料檢測(cè)方法。
背景技術(shù)
隨著信息時(shí)代的迅猛發(fā)展,網(wǎng)絡(luò)上新出現(xiàn)的各種社交媒體平臺(tái)受到了很多用戶的青睞,并且利用社交平臺(tái)進(jìn)行信息發(fā)布已經(jīng)成為當(dāng)前形成和傳播社會(huì)輿論的重要途徑。社會(huì)媒體每天帶來(lái)海量的文本語(yǔ)料,其中存在少部分語(yǔ)料會(huì)對(duì)社會(huì)安全和政治穩(wěn)定帶來(lái)巨大風(fēng)險(xiǎn)。為了避免潛在敏感語(yǔ)料帶來(lái)的負(fù)面影響,需要對(duì)網(wǎng)上的語(yǔ)料進(jìn)行檢測(cè),并能夠快速地識(shí)別出其中涉及敏感的信息,進(jìn)而進(jìn)行更深一步地處理。
對(duì)于網(wǎng)絡(luò)上的敏感語(yǔ)料,傳統(tǒng)的純粹基于詞庫(kù)進(jìn)行檢測(cè)方式具有很大的局限性,僅用詞庫(kù)過(guò)濾的方式面臨詞匯量不全面和詞庫(kù)難以與時(shí)俱進(jìn)的問(wèn)題。因此,如何在此基礎(chǔ)上對(duì)敏感詞檢測(cè)能力進(jìn)行提升是一個(gè)亟待解決的問(wèn)題。
針對(duì)面向網(wǎng)絡(luò)媒體的敏感語(yǔ)料檢測(cè)方法,申請(qǐng)人經(jīng)過(guò)專利查詢,檢索到一篇相關(guān)的專利,名稱為敏感文本檢測(cè)方法及裝置,專利申請(qǐng)?zhí)枮镃N201410064854.6,該專利提出了一種基于有限自動(dòng)狀態(tài)機(jī)和關(guān)鍵詞類別權(quán)重的敏感文本檢測(cè)方案,該專利提出針對(duì)敏感詞出現(xiàn)的頻率以及權(quán)值對(duì)文本的敏感程度進(jìn)行判別,但是該方式僅能濾除詞庫(kù)中已有的敏感詞,不能對(duì)詞庫(kù)以外但也是敏感的詞進(jìn)行檢測(cè),這一點(diǎn)尚未有有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺點(diǎn),提供了一種基于詞庫(kù)與詞向量模型的敏感語(yǔ)料檢測(cè)方法,該方法對(duì)敏感詞的檢測(cè)能力較為優(yōu)異。
為達(dá)到上述目的,本發(fā)明所述的基于詞庫(kù)與詞向量模型的敏感語(yǔ)料檢測(cè)方法包括以下步驟:
1)獲取開(kāi)放文本語(yǔ)料,然后對(duì)開(kāi)放文本語(yǔ)料進(jìn)行預(yù)處理,其中,所述開(kāi)放文本預(yù)料包括中文維基百科語(yǔ)料及新聞?wù)Z料;
2)對(duì)步驟1)處理后的中文維基百科語(yǔ)料與新聞?wù)Z料進(jìn)行合并,得合并語(yǔ)料,同時(shí)將敏感詞種子詞庫(kù)加入到分詞工具中,再利用分詞工具對(duì)合并語(yǔ)料進(jìn)行分詞,再過(guò)濾掉分詞結(jié)果中的停用詞,其中,敏感詞種子詞庫(kù)來(lái)源于網(wǎng)上開(kāi)源的敏感詞庫(kù);
3)使用開(kāi)放工具word2vec對(duì)過(guò)濾停用詞后的分詞結(jié)果進(jìn)行無(wú)監(jiān)督訓(xùn)練,并根據(jù)無(wú)監(jiān)督訓(xùn)練的結(jié)果構(gòu)建詞向量模型;
4)獲取待檢測(cè)文本,將敏感詞庫(kù)加載到分詞工具中,對(duì)待檢測(cè)文本進(jìn)行分詞,并對(duì)分詞結(jié)果過(guò)濾停用詞,得分詞表,同時(shí)構(gòu)建相似詞詞典;
5)從分詞表中選取未被檢測(cè)的詞,判斷檢測(cè)敏感詞庫(kù)中是否含有該未被檢測(cè)的詞,若敏感詞庫(kù)中含有該未被檢測(cè)的詞時(shí),則判斷該未被檢測(cè)的詞敏感,否則,以該未被檢測(cè)的詞作為鍵查詢相似詞詞典,若相似詞詞典中含有該鍵,得相似詞表,檢測(cè)敏感詞庫(kù)中是否含有相似詞表中的詞,若敏感詞庫(kù)中至少有一個(gè)詞屬于該相似詞表,則判定該未被檢測(cè)的詞敏感,否則,認(rèn)為未被檢測(cè)的詞非敏感;若相似詞詞典中不含有該鍵,則利用詞向量模型計(jì)算該未被檢測(cè)的詞與詞向量模型中所有詞的余弦相似度,取余弦相似度最高的前n個(gè)詞,檢測(cè)敏感詞庫(kù)中是否含有所述n個(gè)詞,若敏感詞庫(kù)中至少有一個(gè)詞屬于所述n個(gè)詞,則判定該未被檢測(cè)的詞敏感,否則,認(rèn)為該未被檢測(cè)的詞非敏感,并將該未被檢測(cè)的詞與其n個(gè)相似詞作為鍵-值加入到相似詞詞典中;
6)重復(fù)步驟5)直至遍歷分詞表中的所有詞為止,完成基于詞庫(kù)與詞向量模型的敏感語(yǔ)料檢測(cè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué);中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院,未經(jīng)西安電子科技大學(xué);中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910995383.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用戶詞庫(kù)管理系統(tǒng)和管理方法
- 一種分類詞庫(kù)系統(tǒng)及其更新和維護(hù)方法、以及客戶端
- 詞庫(kù)替換方法、裝置及輸入法系統(tǒng)
- 一種基于位置的輸入法詞庫(kù)管理系統(tǒng)及方法
- 詞庫(kù)、詞庫(kù)的處理方法、裝置和用于處理詞庫(kù)的裝置
- 一種詞庫(kù)更新方法及裝置
- 一種詞庫(kù)的生成方法、裝置、終端設(shè)備和服務(wù)器
- 用于語(yǔ)音對(duì)話平臺(tái)的詞庫(kù)管理方法和系統(tǒng)
- 一種詞庫(kù)維護(hù)管理方法、裝置
- 一種詞庫(kù)構(gòu)建方法及計(jì)算設(shè)備
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





