[發(fā)明專(zhuān)利]一種基于社交文本的人格識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011099735.6 | 申請(qǐng)日: | 2020-10-13 |
| 公開(kāi)(公告)號(hào): | CN112364638B | 公開(kāi)(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 王秀娟;隨藝;鄭康鋒;鄭倩倩;曹思瑋;石雨桐 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京工業(yè)大學(xué);北京郵電大學(xué) |
| 主分類(lèi)號(hào): | G06F40/284 | 分類(lèi)號(hào): | G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 社交 文本 人格 識(shí)別 方法 | ||
1.一種基于社交文本的人格識(shí)別方法,其特征在于包括以下步驟:
步驟1、數(shù)據(jù)預(yù)處理,并對(duì)預(yù)處理后的文本數(shù)據(jù)利用詞嵌入模型得到序列向量矩陣
預(yù)處理操作包括對(duì)社交文本的分詞和數(shù)據(jù)清洗,利用詞嵌入模型為數(shù)據(jù)集中的所有單詞提供一個(gè)唯一且有意義的詞向量,每個(gè)單詞向量維度為d,作為卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入;
步驟2、將序列向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入,進(jìn)行特征提取
一維卷積使用固定大小的卷積核在序列上滑動(dòng)并在不同位置檢測(cè)特征,定義句子的最大長(zhǎng)度max_length為L(zhǎng),k為卷積核的長(zhǎng)度,寬度在訓(xùn)練過(guò)程中保持不變,其值等于詞向量的維度,則句子中的每個(gè)位置j,其中j=1,2,...,k/L,有一個(gè)窗口向量wdj和k個(gè)連續(xù)的詞向量xj∈Rd,每個(gè)詞向量的維度為d維,句子為x∈RL×d,窗口向量表示如下
wdj=[xj,xj+1,…,xj+k-1]
wdj為k個(gè)詞向量構(gòu)成的向量矩陣,第j個(gè)窗口向量經(jīng)卷積操作將獲得一個(gè)特征映射h_mapj,公式(1)如下:
h_mapj=f(wdj·conv+b) (1)
其中conv∈Rk×d定義為濾波器的卷積操作,填充方式選擇無(wú)填充,·表示點(diǎn)積操作,f為非線(xiàn)性函數(shù)-ReLU,b為偏置單元,偏置單元初始值取隨機(jī)值,在訓(xùn)練模型時(shí)通過(guò)反向傳播來(lái)自動(dòng)更新該值,調(diào)整至損失函數(shù)收斂;h_map∈RL-k+1則表示整個(gè)句子中的所有窗口向量經(jīng)卷積操作得到的特征映射;
最大池化操作是計(jì)算某一池化窗口內(nèi)特征的最大值來(lái)代表這個(gè)區(qū)域內(nèi)的特征,在此選擇池化窗口的長(zhǎng)度為L(zhǎng)-k+1,寬度在訓(xùn)練過(guò)程中保持不變,其值也是等于詞向量的維度,則經(jīng)池化后的特征表示為p∈R;
使用n個(gè)不同大小的卷積核來(lái)獲得n元特征,n是不同卷積核窗口大小的類(lèi)別,k=(k1,k2,...,kn),不同大小的卷積核又各為num_filters個(gè),將卷積和池化操作后將num_filters個(gè)相同窗口大小的卷積核得到的特征p追加在一起,得到特征
其中表示卷積核窗口長(zhǎng)度為ki的num_filters個(gè)卷積核經(jīng)池化后獲取的特征,i=1,2,...,n,分號(hào);表示列向量的拼接;此外,將不同窗口大小的卷積核再次拼接在一起,拼接后得到的特征表示為Conv_output:
將經(jīng)過(guò)卷積和池化操作并拼接的特征Conv_output再經(jīng)扁平化操作得到的特征表示為Conv_flat;
隱含節(jié)點(diǎn)dropout率取0~1,則扁平化的特征Conv_flat經(jīng)dropout操作后得到特征Conv_drop;
長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM整體是一個(gè)記憶細(xì)胞處理上下文信息,包括三個(gè)門(mén)機(jī)制:遺忘門(mén)決定從記憶細(xì)胞中丟棄什么信息;輸入門(mén)決定細(xì)胞狀態(tài)存儲(chǔ)哪些新信息,其中sigmoid層決定什么值將要被更新,tanh層創(chuàng)建一個(gè)新的候選值向量輸出門(mén)決定輸出信息,首先sigmoid層決定輸出的細(xì)胞狀態(tài)ct,其次將細(xì)胞狀態(tài)通過(guò)tanh層處理并將其與sigmoid門(mén)的輸出相乘,決定本節(jié)點(diǎn)的輸出信息ht;
以長(zhǎng)短期記憶網(wǎng)絡(luò)最后一個(gè)時(shí)間序列節(jié)點(diǎn)的輸出信息ht作為輸入,加入了全連接層,使之經(jīng)過(guò)非線(xiàn)性變化后,以便提取這些特征之間的關(guān)聯(lián),最后映射到輸出空間上;全連接層隱層神經(jīng)元的個(gè)數(shù)為dense1_unit個(gè),得到的特征表示為lstm_dense;
隱層神經(jīng)元的數(shù)量初始值設(shè)置按照以下規(guī)則:
隱藏神經(jīng)元的數(shù)量應(yīng)該介于輸入層的大小和輸出層的大小之間;
隱藏神經(jīng)元的數(shù)量應(yīng)該是輸入層大小的2/3,再加上輸出層的大小;
藏神經(jīng)元的數(shù)量應(yīng)該少于輸入層大小的兩倍;
步驟3、將原始特征-序列向量矩陣、卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)的輸出特征進(jìn)行特征融合后利用注意力機(jī)制選擇有用信息
將卷積神經(jīng)網(wǎng)絡(luò)提取的n元局部特征Conv_drop∈Rn*num_filters、長(zhǎng)短期記憶網(wǎng)絡(luò)提取的序列信息特征lstm_dense∈Rdense1_unit與經(jīng)過(guò)隱層神經(jīng)元的個(gè)數(shù)為dense2_unit的完全連接層的非線(xiàn)性變化的原始詞向量data_dense∈Rdense2_unit利用concat()函數(shù)按照相同維度的行向量進(jìn)行拼接,得到融合特征oc∈Rn*num_filters+dense1_unit+dense2_unit,其中n的含義是有n種尺寸的卷積核,如公式(2)所示:
oc=concat(Conv_drop,lstm_dense,data_dense) (2)
使用隱層神經(jīng)元為dense3_unit個(gè)的完全連接層來(lái)簡(jiǎn)化特征維度得到輸出特征oc_dense∈Rdense3_unit;使用注意力機(jī)制對(duì)融合特征突出輸入值對(duì)輸出影響,提取關(guān)鍵信息,得到特征pred∈Rdense3_unit并通過(guò)計(jì)算注意力權(quán)重對(duì)傳統(tǒng)模型進(jìn)行優(yōu)化;其中注意力機(jī)制的第v個(gè)維度的輸出predv,其中v=1,2,...,dense3_unit,如公式(3)所示;
其中αv是第v維的融合特征oc_densev與第v維的輸出predv之間的注意力權(quán)重,它的定義如公式(4)所示,其機(jī)制同softmax函數(shù)一致,所以利用softmax函數(shù)進(jìn)行計(jì)算;
其中exp為指數(shù)函數(shù),ev是一種驗(yàn)證機(jī)制,為公式(5)的定義;
ev=tanh(oc_densev·we+be) (5)
其中we是權(quán)重矩陣,be為偏置系數(shù),二者的初始數(shù)值取隨機(jī)值,在訓(xùn)練模型時(shí)通過(guò)反向傳播來(lái)自動(dòng)更新該值在反向傳播過(guò)程中,隨著we和be的變化,不斷調(diào)整注意力權(quán)重,從而損失函數(shù)不斷減小,直至收斂,二者的值便不再變化;
步驟4、使用softmax函數(shù)作為分類(lèi)器進(jìn)行用戶(hù)人格識(shí)別
基于大五人格模型進(jìn)行人格識(shí)別,五類(lèi)人格之間互不排斥,每個(gè)人格都是一個(gè)二元值:是/否,在設(shè)計(jì)分類(lèi)模型時(shí),將多標(biāo)簽分類(lèi)轉(zhuǎn)換成多個(gè)二元分類(lèi)問(wèn)題,然后使用多個(gè)單標(biāo)簽分類(lèi)器進(jìn)行處理;其中單標(biāo)簽分類(lèi)器選用softmax函數(shù)使得每個(gè)元素的范圍都在(0,1)之間,并且所有元素之和為1;單個(gè)標(biāo)簽也是一個(gè)二元值,正例標(biāo)簽值為1,負(fù)例標(biāo)簽值為0,M應(yīng)為類(lèi)別數(shù)量class_num=2;其定義如等式(6)所示:
其中,θ(z)a為樣本z屬于第a個(gè)類(lèi)別的概率;樣本z∈RM定義如公式(7)所示,因?yàn)閟oftmax函數(shù)作為M分類(lèi)器,輸出值θ(z)=(θ(z)1,θ(z)2,...,θ(z)M),最大的概率值確定為最終的輸出類(lèi)別;因此輸入值也應(yīng)該為M維數(shù)值,因此將經(jīng)注意力機(jī)制提取后的特征pred∈Rdense3_unit與權(quán)重矩陣wc∈Rdense3_unit*M點(diǎn)乘,再加上對(duì)應(yīng)的偏置系數(shù)bc∈RM,從而得到z∈RM來(lái)滿(mǎn)足softmax函數(shù)M分類(lèi)的輸入要求;
z=pred·wc+bc (7)
權(quán)重矩陣和偏置系數(shù)的初始數(shù)值取隨機(jī)值,在訓(xùn)練模型時(shí)通過(guò)反向傳播來(lái)自動(dòng)更新該值;隨著wc和bc的改變來(lái)調(diào)整softmax函數(shù)輸出概率,從而提高分類(lèi)精度;其更新規(guī)則如公式(8)(9)所示:
wc=wc+Δwc (8)
其中,η是學(xué)習(xí)速率,取值范圍為[0,1];loss是損失函數(shù)值,其定義見(jiàn)公式(13),為偏導(dǎo)數(shù);根據(jù)鏈?zhǔn)椒▌t,的計(jì)算過(guò)程如公式(10)所示:
根據(jù)樣本z定義,顯然有
分類(lèi)準(zhǔn)確率Acc的計(jì)算見(jiàn)公式(12),損失函數(shù)值loss的計(jì)算公式見(jiàn)公式(13);
在實(shí)際訓(xùn)練中,是將數(shù)據(jù)集劃分成多個(gè)大小為batch_size的批次,采用的是mini-batch_size,設(shè)置為幾十或者幾百且設(shè)置成2的冪次;
在公式(8)中TP是一個(gè)批次的數(shù)據(jù)中實(shí)際為正例且被分類(lèi)器劃分為正例的個(gè)數(shù),TN是實(shí)際為負(fù)例且被分類(lèi)器劃分為負(fù)例的個(gè)數(shù);在公式(9)中,θ(z)(u)表示一個(gè)批次中第u個(gè)樣本z的預(yù)測(cè)值,y(u)表示一個(gè)批次中第u樣本z的實(shí)際標(biāo)簽值,log是對(duì)數(shù)函數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京工業(yè)大學(xué);北京郵電大學(xué),未經(jīng)北京工業(yè)大學(xué);北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011099735.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種以氯化鈣為浸取劑的離子吸附型稀土提取方法
- 下一篇:仿生肌理膜
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢(xún)意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶(hù)推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 基于語(yǔ)音的人格特征預(yù)測(cè)方法
- 一種通過(guò)文本主題挖掘推測(cè)用戶(hù)大五人格的方法及系統(tǒng)
- 一種數(shù)據(jù)處理方法和裝置
- 一種數(shù)據(jù)處理方法和裝置
- 利用類(lèi)神經(jīng)網(wǎng)絡(luò)進(jìn)行人格類(lèi)型的自動(dòng)識(shí)別與分群的方法
- 一種根據(jù)視頻圖像識(shí)別人格特征的方法
- 一種基于神經(jīng)響應(yīng)的人格測(cè)量方法及系統(tǒng)
- 人格評(píng)估方法及裝置
- 一種基于行為大數(shù)據(jù)的統(tǒng)計(jì)學(xué)人格計(jì)算方法
- 一種虛擬角色的口語(yǔ)控制方法、電子設(shè)備及存儲(chǔ)介質(zhì)





