[發(fā)明專利]基于不同人格特征的文本觀點(diǎn)挖掘方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910959523.1 | 申請(qǐng)日: | 2019-10-10 |
| 公開(公告)號(hào): | CN110825842B | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設(shè)計(jì))人: | 左源;吳俊杰;李文娟;劉冠男;袁石;林浩;張志豪;李豐志 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F40/242;G06F40/279 |
| 代理公司: | 北京遠(yuǎn)大卓悅知識(shí)產(chǎn)權(quán)代理有限公司 11369 | 代理人: | 史霞 |
| 地址: | 100191*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 不同 人格 特征 文本 觀點(diǎn) 挖掘 方法 | ||
1.基于不同人格特征的文本觀點(diǎn)挖掘方法,其特征在于,包括以下步驟:
S1、獲取訓(xùn)練語料,并對(duì)訓(xùn)練語料的詞進(jìn)行詞向量特征表示,獲得詞的詞向量特征,對(duì)進(jìn)行詞向量特征表示完的訓(xùn)練語料,結(jié)合觀點(diǎn)詞集合,使用詞的詞向量特征為特征,構(gòu)建最大熵模型;
S2、針對(duì)某個(gè)事件,收集全語料,將全語料依據(jù)人格特征分成多個(gè)集合語料c,針對(duì)多個(gè)集合語料c,通過耦合的狄利克雷過程DP構(gòu)建跨人格特征主題模型,其中,跨人格特征主題模型參數(shù)包括:
其表示第z個(gè)共享主題的屬性詞分布;
其表示集合語料c所屬的第z個(gè)共享主題的觀點(diǎn)詞分布
其表示第z個(gè)獨(dú)享主題的屬性詞分布;
其表示第z個(gè)獨(dú)享主題的觀點(diǎn)詞分布,每一個(gè)集合語料c的獨(dú)享主題的屬性詞分布分別對(duì)應(yīng)一個(gè)觀點(diǎn)詞分布共享主題由不同集合語料c共享的全局DP生成,獨(dú)享主題由每個(gè)特征人格特征對(duì)應(yīng)集合語料的DP生成;
S3、針對(duì)每個(gè)集合語料中的每條文檔進(jìn)行分詞處理,將每條文檔的分詞組成輸入列表,作為跨人格特征主題模型的輸入,并初始化跨人格特征主題模型的參數(shù);
S4、根據(jù)輸入內(nèi)容,采用吉布斯采樣法,依據(jù)跨人格特征主題模型、最大熵模型迭代計(jì)算得出最終的人格特征主題模型的參數(shù);
步驟S2中耦合的狄利克雷過程表示為D~DP(α,B),是隨機(jī)概率測(cè)量D在基礎(chǔ)空間Ω上的分布,其中,α是密度參數(shù),B是基于Ω的基本分布;
集合語料c中文檔dj的第i個(gè)句子sji的生成過程表示為:sji~G(Fc),其中,F(xiàn)c=∈cD0+(1-∈c)Dc;D0~DP(α0,B0),表示D0為所有集合語料c共享的成分生成自一個(gè)全局的DP;Dc~DP(αc,Bc),表示Dc為特定集合語料c的成分生成自特定的DP;∈c~Beta(α0,αc),∈c為服從Beta分布的參數(shù),表示來自共享主題概率,則來自獨(dú)享主題的概率為(1-∈c);α0及所有的αc均設(shè)置為0.2,基本分布B0及所有的Bc服從超參為0.05的狄利克雷先驗(yàn)分布;
每一個(gè)集合語料c中文檔dj的第i個(gè)句子sji對(duì)應(yīng)一個(gè)潛在標(biāo)簽zji,以及一組存儲(chǔ)著在文檔dj與原子k相關(guān)的數(shù)據(jù)樣本的數(shù)量的計(jì)數(shù)器{mjk};
步驟S4的一次迭代具體包括:
步驟4a、確定zji是來自全局DP或是特定DP,具體為:使用rji表示zji的源DP,如果rji=0,源DP為全局DP,如果rji=c,則源DP為文檔dj所在的集合語料c的特定DP,計(jì)算方程如下;
p(rji=c)∝p(rji=c|vj)p(sji|rji=c,zji)=vjcp(sji|rji=c,zji)
其中,vj=(vj0,vjc)為源DP的群體特征,反映了全局DP和特定DP對(duì)文檔dj的相對(duì)貢獻(xiàn),p(sji|rji=c,zji)為句子sji的似然,計(jì)算公式如下;
其中,k表示主題,為除了句子sji之外,所有文檔中分配給k的樣本總數(shù);φk表示原子,即主題-詞的多項(xiàng)式分布;Ic為包含Dc中所有原子指數(shù)的集合;f(sji;φk)為句子sji在φk上的概率密度函數(shù);f(sji;B)=∫θf(sji;θ)B(θ)dθ;
步驟4052、根據(jù)確定好的源DP,確定zji,并生成一個(gè)特定的原子,該過程類似于中餐館過程,具體如下:
根據(jù)與成比例的原則,設(shè)置zji=k,根據(jù)與αcf(sji;B)成比例的原則,從B(·|si)中生成一個(gè)新的原子;
同時(shí),更新組合系數(shù)vj=(vj0,vjc),根據(jù)Fc的生成過程,vj遵循一個(gè)Beta分布,給定zj,其中,是文檔dj中與Dc相關(guān)聯(lián)的樣本總數(shù);
步驟4053、對(duì)于句子sji中某個(gè)輸入分詞sjin,根據(jù)最大熵模型計(jì)算該分詞sjin屬于觀點(diǎn)詞或?qū)傩栽~的指示變量yjin值,具體為:
根據(jù)最大熵模型得到分詞sjin屬于屬性詞的概率,若分詞屬于屬性詞的概率大于屬于觀點(diǎn)詞的概率,則分詞被判定為屬性詞,用指示變量yjin=0表示;否則分詞屬于觀點(diǎn)詞的概率大于屬于屬性詞的概率,則該分詞判定為觀點(diǎn)詞,用yjin=1表示;
步驟4054、根據(jù)源DP指示變量rji、屬性觀點(diǎn)指示變量yjin和主題下標(biāo)指示變量zji,根據(jù)主題-詞分布確定輸入文檔dj中的分詞sjin;
若rji=0,yjin=0,生成詞表示分詞sjin由第zji個(gè)共享主題生成,該分詞是屬性詞,詞分布是共享主題的屬性詞分布;
若rji=0,yjin=1,生成詞表示分詞sjin由第zji個(gè)共享主題中第c個(gè)語料的觀點(diǎn)詞分布生成,該詞是觀點(diǎn)詞,詞分布是共享主題的觀點(diǎn)詞分布;
若rji=c,yjin=0,生成詞表示分詞sjin由第zji個(gè)獨(dú)享主題中第c個(gè)語料的屬性詞分布生成,該詞是屬性詞,詞分布是獨(dú)享主題的屬性詞分布;
若rji=c,yjin=1,生成詞表示分詞sjin由第zji個(gè)獨(dú)享主題中第c個(gè)語料的觀點(diǎn)詞分布生成,該詞是觀點(diǎn)詞,詞分布是獨(dú)享主題的觀點(diǎn)詞分布。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910959523.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于語音的人格特征預(yù)測(cè)方法
- 一種通過文本主題挖掘推測(cè)用戶大五人格的方法及系統(tǒng)
- 一種數(shù)據(jù)處理方法和裝置
- 一種數(shù)據(jù)處理方法和裝置
- 利用類神經(jīng)網(wǎng)絡(luò)進(jìn)行人格類型的自動(dòng)識(shí)別與分群的方法
- 一種根據(jù)視頻圖像識(shí)別人格特征的方法
- 一種基于神經(jīng)響應(yīng)的人格測(cè)量方法及系統(tǒng)
- 人格評(píng)估方法及裝置
- 一種基于行為大數(shù)據(jù)的統(tǒng)計(jì)學(xué)人格計(jì)算方法
- 一種虛擬角色的口語控制方法、電子設(shè)備及存儲(chǔ)介質(zhì)





