[發(fā)明專(zhuān)利]一種建立面向網(wǎng)絡(luò)社交媒體的隱蔽敏感文本的檢測(cè)模型的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811332770.0 | 申請(qǐng)日: | 2018-11-09 |
| 公開(kāi)(公告)號(hào): | CN109543084B | 公開(kāi)(公告)日: | 2021-01-19 |
| 發(fā)明(設(shè)計(jì))人: | 羅敏楠;林中平;鄭慶華;秦濤;劉歡 | 申請(qǐng)(專(zhuān)利權(quán))人: | 西安交通大學(xué) |
| 主分類(lèi)號(hào): | G06F16/951 | 分類(lèi)號(hào): | G06F16/951;G06F16/9536;G06F16/35;G06F40/30;G06N3/04;G06Q50/00 |
| 代理公司: | 西安通大專(zhuān)利代理有限責(zé)任公司 61200 | 代理人: | 徐文權(quán) |
| 地址: | 710049 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 建立 面向 網(wǎng)絡(luò) 社交 媒體 隱蔽 敏感 文本 檢測(cè) 模型 方法 | ||
本發(fā)明公開(kāi)了一種建立面向網(wǎng)絡(luò)社交媒體的隱蔽敏感文本的檢測(cè)模型的方法,包括以下步驟:步驟1、互聯(lián)網(wǎng)社交媒體文本數(shù)據(jù)高效采集及預(yù)處理,構(gòu)建面向特定應(yīng)用場(chǎng)景的數(shù)據(jù)集以及詞向量詞典,利用稠密的詞向量,為數(shù)據(jù)集中每個(gè)類(lèi)別標(biāo)簽賦予中文語(yǔ)義信息;步驟2、基于深度神經(jīng)網(wǎng)絡(luò)特征的多分類(lèi)模型訓(xùn)練,利用卷積神經(jīng)網(wǎng)絡(luò)提取樣本數(shù)據(jù)的深度特征,訓(xùn)練一個(gè)多分類(lèi)的支持向量機(jī);步驟3、基于中文語(yǔ)義理解的模型測(cè)試評(píng)價(jià),通過(guò)深度特征向量得到文本的隱含語(yǔ)義。用于無(wú)敏感關(guān)鍵詞情況下,從中文語(yǔ)義層面檢測(cè)網(wǎng)絡(luò)社交媒體上的中文隱蔽敏感信息,從而增加了網(wǎng)絡(luò)輿情監(jiān)測(cè)的精準(zhǔn)程度。
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,具體涉及一種建立面向網(wǎng)絡(luò)社交媒體的隱蔽敏感文本的檢測(cè)模型的方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的快速發(fā)展和全民應(yīng)用,網(wǎng)絡(luò)輿情成為社會(huì)輿情中十分重要的一部分。相對(duì)于傳統(tǒng)媒介(電視、報(bào)紙、廣播等),承載網(wǎng)絡(luò)輿情的互聯(lián)網(wǎng)呈現(xiàn)出言論自由度過(guò)高、突發(fā)性、傳播快、受眾廣等特點(diǎn),這也給輿情監(jiān)控系統(tǒng)提出了實(shí)時(shí)性、高精度等要求。
針對(duì)隱蔽性程度較高的有害網(wǎng)絡(luò)敏感輿情信息,近年來(lái),不法分子逐漸避開(kāi)在此類(lèi)信息中直接使用涉及敏感的關(guān)鍵詞。雖然這類(lèi)單詞不直接出現(xiàn),但是從短文本整體的中文語(yǔ)義上,又可以明顯地辨別出這種涉及敏感的有害輿情信息。此時(shí),傳統(tǒng)輿情系統(tǒng)的關(guān)鍵詞過(guò)濾方法以及變形關(guān)鍵詞過(guò)濾方法(拆分關(guān)鍵詞、用拼音代替等)已經(jīng)無(wú)法準(zhǔn)確濾除包含隱蔽敏感信息的文本。因此,如何準(zhǔn)確地檢測(cè)出社交媒體中具有高隱蔽性的敏感文本信息是一個(gè)亟待解決的難點(diǎn)。
針對(duì)網(wǎng)絡(luò)社交媒體的敏感信息檢測(cè)方法,申請(qǐng)人經(jīng)過(guò)查新,檢索到一篇與本發(fā)明相關(guān)的專(zhuān)利,名稱(chēng)為一種基于計(jì)算機(jī)的互聯(lián)網(wǎng)輿情監(jiān)測(cè)系統(tǒng),專(zhuān)利申請(qǐng)?zhí)枮镃N201620877903.2;該專(zhuān)利1提出了一種基于計(jì)算機(jī)的互聯(lián)網(wǎng)輿情監(jiān)測(cè)系統(tǒng),該系統(tǒng)包括:服務(wù)器、數(shù)據(jù)存儲(chǔ)器、信息提取器、數(shù)據(jù)采集網(wǎng)關(guān)、信號(hào)采集設(shè)備、智能分類(lèi)檢測(cè)器、應(yīng)用網(wǎng)關(guān)監(jiān)測(cè)設(shè)備、信號(hào)傳感器、計(jì)算機(jī)、無(wú)線網(wǎng)絡(luò)路由器和移動(dòng)設(shè)備端。該專(zhuān)利通過(guò)數(shù)據(jù)采集網(wǎng)關(guān)簡(jiǎn)單過(guò)濾含特定敏感關(guān)鍵詞的信息,但該方式僅能濾除包含顯式關(guān)鍵詞的敏感信息,對(duì)于語(yǔ)義隱蔽性程度較高(不包含特定敏感關(guān)鍵詞)的網(wǎng)絡(luò)敏感輿情信息,尚未提出有效的解決方案。
發(fā)明內(nèi)容
為了解決上述問(wèn)題,本發(fā)明提供了一種有效的建立用于檢測(cè)隱蔽敏感文本信息的面向網(wǎng)絡(luò)社交媒體的檢測(cè)模型的方法。
為達(dá)到上述目的,本發(fā)明所述一種建立面向網(wǎng)絡(luò)社交媒體的隱蔽敏感文本的檢測(cè)模型的方法,包括以下步驟:
步驟1、互聯(lián)網(wǎng)文本數(shù)據(jù)采集及隱蔽敏感文本數(shù)據(jù)集構(gòu)建。首先,通過(guò)爬蟲(chóng)程序,在網(wǎng)絡(luò)社交媒體站點(diǎn)——新浪微博(http://weibo.cn)上利用事件關(guān)鍵詞(組)獲取與某事件相關(guān)的微博文本內(nèi)容。對(duì)上述獲取的原始文本數(shù)據(jù)進(jìn)行預(yù)處理,以構(gòu)建面向特定應(yīng)用場(chǎng)景的隱蔽敏感文本數(shù)據(jù)集以及詞向量詞典D。該數(shù)據(jù)有如下兩個(gè)用途:1、作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集;2、利用公開(kāi)的word2vec方法訓(xùn)練詞向量(稠密向量),為每一條文本樣本數(shù)據(jù)的標(biāo)簽(tag)賦予中文語(yǔ)義信息。
步驟2、隱蔽敏感文本檢測(cè)模型訓(xùn)練。對(duì)步驟1隱蔽敏感信息數(shù)據(jù)集訓(xùn)練集中每一個(gè)文本樣本,將其表示為矩陣形式A∈Rm×n,m表示樣本中的單詞數(shù),n表示詞向量的維度。在訓(xùn)練集上預(yù)訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)模型(Convolutional Neural Network),該模型依次包括一個(gè)卷積層、一個(gè)池化層、一個(gè)全連接層和一個(gè)Softmax分類(lèi)層。當(dāng)訓(xùn)練完成后,固定前三層的網(wǎng)絡(luò)參數(shù),將Softmax分類(lèi)層替換為一個(gè)待訓(xùn)練的全連接層,該層的輸出作為一個(gè)深度特征向量(維度與詞向量相同,表示輸入文本的整體特征信息),基于該向量訓(xùn)練一個(gè)多分類(lèi)支持向量機(jī),優(yōu)化該支持向量機(jī)的目標(biāo)函數(shù),從而得到最優(yōu)的模型,即為隱蔽敏感文本檢測(cè)模型。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811332770.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢(xún)意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶(hù)推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





