[發(fā)明專利]一種建立面向網(wǎng)絡(luò)社交媒體的隱蔽敏感文本的檢測(cè)模型的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811332770.0 | 申請(qǐng)日: | 2018-11-09 |
| 公開(kāi)(公告)號(hào): | CN109543084B | 公開(kāi)(公告)日: | 2021-01-19 |
| 發(fā)明(設(shè)計(jì))人: | 羅敏楠;林中平;鄭慶華;秦濤;劉歡 | 申請(qǐng)(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/9536;G06F16/35;G06F40/30;G06N3/04;G06Q50/00 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 61200 | 代理人: | 徐文權(quán) |
| 地址: | 710049 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 建立 面向 網(wǎng)絡(luò) 社交 媒體 隱蔽 敏感 文本 檢測(cè) 模型 方法 | ||
1.一種建立面向網(wǎng)絡(luò)社交媒體的隱蔽敏感文本的檢測(cè)模型的方法,其特征在于,包括以下步驟:
步驟1、互聯(lián)網(wǎng)文本數(shù)據(jù)采集及隱蔽敏感文本數(shù)據(jù)集構(gòu)建:在網(wǎng)絡(luò)社交媒體站點(diǎn)上利用事件關(guān)鍵詞或關(guān)鍵詞組獲取與某事件相關(guān)的原始文本數(shù)據(jù),對(duì)獲取的文本數(shù)據(jù)進(jìn)行預(yù)處理,以構(gòu)建隱蔽敏感文本數(shù)據(jù)集以及詞向量詞典D,并將隱蔽敏感信息數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集;
步驟2、隱蔽敏感文本檢測(cè)模型訓(xùn)練:訓(xùn)練隱蔽敏感信息數(shù)據(jù)集中的每一個(gè)文本樣本,將其表示為矩陣形式A∈Rm×n,m表示樣本中的單詞數(shù),n表示詞向量的維度;在訓(xùn)練集上預(yù)訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)分類模型,訓(xùn)練完成后,固定前三層的網(wǎng)絡(luò)參數(shù),將Softmax分類層替換為一個(gè)待訓(xùn)練的全連接層,該層的輸出作為一個(gè)深度特征向量,基于該深度特征向量訓(xùn)練一個(gè)多分類支持向量機(jī),優(yōu)化該支持向量機(jī)的目標(biāo)函數(shù),從而得到最優(yōu)的模型,即為隱蔽敏感文本檢測(cè)模型;
步驟3、隱蔽敏感文本檢測(cè)模型測(cè)試及評(píng)估:使用預(yù)先劃分好的測(cè)試集樣本對(duì)步驟2中訓(xùn)練完成的隱蔽敏感文本檢測(cè)模型進(jìn)行測(cè)試及性能評(píng)估,評(píng)估隱蔽敏感文本檢測(cè)模型的準(zhǔn)確率;
步驟2包括以下步驟:
步驟2.1、對(duì)一個(gè)經(jīng)過(guò)預(yù)處理的文本樣本(xi,yi),xi表示第i個(gè)輸入網(wǎng)絡(luò)的隱蔽敏感原始文本數(shù)據(jù),yi表示其對(duì)應(yīng)的類別標(biāo)簽,為one-hot編碼形式;xi首先被表示為i×n的矩陣形式,i為xi中實(shí)際包含的詞向量數(shù),然后對(duì)xi進(jìn)行處理,使訓(xùn)練集數(shù)據(jù)轉(zhuǎn)換為維度為m×n的輸入矩陣A,行數(shù)m表示詞向量數(shù),列數(shù)n表示一個(gè)詞向量的維度;
步驟2.2、訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,作為預(yù)訓(xùn)練模型,首先構(gòu)建一個(gè)4層的卷積神經(jīng)網(wǎng)絡(luò),在網(wǎng)絡(luò)結(jié)構(gòu)上包括一個(gè)卷積層C1,一個(gè)池化層P2,一個(gè)全連接層F3和一個(gè)Softmax分類層S4;在訓(xùn)練集上優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),待網(wǎng)絡(luò)參數(shù)迭代至最優(yōu),作為步驟2.4的預(yù)訓(xùn)練模型;
步驟2.3、引入樣本類別攜帶的語(yǔ)義信息,對(duì)于某樣本的類別單詞wt,從詞向量詞典D索引得到一個(gè)n維的詞向量表示類別標(biāo)簽的中文語(yǔ)義信息;
步驟2.4、改變步驟2.2中預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練隱蔽敏感信息檢測(cè)模型,固定C1、P2、F3層,將S4層替換為一個(gè)線性變換層L4,將步驟2.2中F3層得到的特征向量F3傳入線性變換層L4計(jì)算后得到一個(gè)n維深度特征向量,用下列目標(biāo)函數(shù)訓(xùn)練L4層的參數(shù)矩陣M,
其中,O表示多分類支持向量機(jī)的目標(biāo)函數(shù),margin為支持向量機(jī)分類間隔值,為樣本類別單詞tag表征的中文單詞的詞向量,M為線性變換層的參數(shù)矩陣,經(jīng)過(guò)初始化后需要訓(xùn)練,為線性變換層輸出向量;為其余類別對(duì)應(yīng)詞向量;L4層輸出與詞向量同維度的稠密向量表示輸入樣本的低維文本語(yǔ)義向量;最后分別計(jì)算它與樣本對(duì)應(yīng)的類別詞向量和其余類別詞向量的點(diǎn)積,使用點(diǎn)積相似度度量文本語(yǔ)義向量與類別向量的相似性,點(diǎn)積運(yùn)算的值越大,則表示文本樣本與某個(gè)類別詞在語(yǔ)義上更為接近,則可判斷為該訓(xùn)練樣本屬于哪個(gè)類別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811332770.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





