[發(fā)明專利]基于主題情感語(yǔ)義提取的細(xì)粒度觀點(diǎn)挖掘方法在審
| 申請(qǐng)?zhí)枺?/td> | 201611029643.4 | 申請(qǐng)日: | 2016-11-15 |
| 公開(kāi)(公告)號(hào): | CN106599063A | 公開(kāi)(公告)日: | 2017-04-26 |
| 發(fā)明(設(shè)計(jì))人: | 楊正良;李舒燕 | 申請(qǐng)(專利權(quán))人: | 武漢璞華大數(shù)據(jù)技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京科億知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙)11350 | 代理人: | 傅海鵬 |
| 地址: | 430000 湖北省武漢市雄*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 主題 情感 語(yǔ)義 提取 細(xì)粒度 觀點(diǎn) 挖掘 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本挖掘技術(shù)領(lǐng)域,具體是一種基于主題情感語(yǔ)義提取的細(xì)粒度觀點(diǎn)挖掘方法。
背景技術(shù)
現(xiàn)階段隨著網(wǎng)購(gòu)熱潮的來(lái)臨,在線評(píng)論信息數(shù)目呈現(xiàn)井噴式增長(zhǎng)。面對(duì)這數(shù)目巨大且無(wú)結(jié)構(gòu)化的信息數(shù)據(jù),僅靠人工閱讀方式篩選所需信息不僅工作量非常繁重,而且很難及時(shí)有效地獲取有價(jià)值的信息;另一方面這些在線評(píng)論信息對(duì)許多潛在消費(fèi)者,企業(yè)組織,乃至國(guó)家機(jī)關(guān)政府部門(mén)等各種類型的用戶有至關(guān)重要的作用。如何幫助這些龐大的用戶群及時(shí)高效針對(duì)海量評(píng)論信息,自動(dòng)分析提取其中的觀點(diǎn)信息是當(dāng)前面臨的一個(gè)重要問(wèn)題。
目前大多數(shù)情感語(yǔ)義提取方法采用的模型大都未考慮到詞語(yǔ)的位置和語(yǔ)義關(guān)系,然而其對(duì)觀點(diǎn)表達(dá)有著重要的影響,要想獲取更準(zhǔn)確和有價(jià)值的觀點(diǎn)信息,需要對(duì)模型進(jìn)行改進(jìn)后才能用于細(xì)粒度觀點(diǎn)挖掘。其次自然語(yǔ)言存在多義性和相關(guān)性,導(dǎo)致評(píng)論的觀點(diǎn)挖掘和建模存在不確定性:一方面進(jìn)行定性概念描述時(shí)存在界限的模糊性;另一方面模型的定量表示又具有隨機(jī)性。當(dāng)前的模型用于觀點(diǎn)挖掘時(shí),僅考慮了定量的隨機(jī)性而忽視了定性概念的模糊性。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于主題情感語(yǔ)義提取的細(xì)粒度觀點(diǎn)挖掘方法,旨在幫助企業(yè)快速獲取用戶的評(píng)論信息。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
基于主題情感語(yǔ)義提取的細(xì)粒度觀點(diǎn)挖掘方法,利用基于云模型的主題情感統(tǒng)一最大熵模型(Sentiment Cloud Maximum Entropy LDA Model,SC MaxEnt-LDA)進(jìn)行主題情感語(yǔ)義提取,所述的方法包括以下步驟:
(1)首先,使用基于LDA的最大熵模型(Maximum Entropy LDA Model,MaxEn-LDA)進(jìn)行特征詞和觀點(diǎn)詞提取;
(2)然后,開(kāi)展情感極性分析,同時(shí)對(duì)具有不確定性的情感進(jìn)行定性定量轉(zhuǎn)換建模,在此基礎(chǔ)上提出情感修正算法(Sentiment Revision Algorithm,SRA),通過(guò)貼近度和云期望曲線實(shí)現(xiàn)全局情感和主題情感的相似度計(jì)算,進(jìn)而完成對(duì)情感偏差的校正,即將句子的情感劃分為五類:負(fù)向,弱負(fù)向,中立,弱正向,正向,分別對(duì)應(yīng)情感數(shù)值為1-5,進(jìn)而有效提高觀點(diǎn)挖掘的精確度;
(3)最后,總結(jié)歸納生成情感摘要。
作為本發(fā)明進(jìn)一步的方案:所述的句子的情感的分類是基于詞和短語(yǔ)層次,據(jù)此判斷消費(fèi)者對(duì)產(chǎn)品或服務(wù)在某個(gè)方面(主題)的情感傾向性,將情感分類細(xì)化到詞語(yǔ)、短語(yǔ)級(jí)別,實(shí)現(xiàn)從主題層面獲取情感極性,能挖掘用戶更深層次的觀點(diǎn)來(lái)滿足實(shí)際應(yīng)用需求。
作為本發(fā)明進(jìn)一步的方案:所述的步驟(1)中,在使用基于LDA的最大熵模型進(jìn)行特征詞和觀點(diǎn)詞提取之前,還包括語(yǔ)料的預(yù)處理,將預(yù)處理后的語(yǔ)料輸入基于云模型的主題情感統(tǒng)一最大熵模型。
作為本發(fā)明進(jìn)一步的方案:所述的基于云模型的主題情感統(tǒng)一最大熵模型中,對(duì)于語(yǔ)料庫(kù)中的每篇文檔,產(chǎn)生文檔-主題(D-T)分布,其中D表示文檔,T表示主題;對(duì)于每個(gè)主題產(chǎn)生主題-情感(T-S)分布,對(duì)文檔中每個(gè)句子,通過(guò)多項(xiàng)式分布(Polynomial Distribution)和伯努利分布(Bernoulli Distribution)確定其主題和情感,其中T表示主題,S表示情感。
作為本發(fā)明進(jìn)一步的方案:所述的步驟(2)中,情感修正算法是基于云模型的,由于利用基于LDA的最大熵模型提取出的全局觀點(diǎn)詞的情感傾向代表了所有評(píng)論發(fā)布者的總的態(tài)度,經(jīng)過(guò)LDA模型(Latent Dirichlet Allocation,LDA)處理后得到的每個(gè)主題下的情感分布在一定程度上應(yīng)該和全局觀點(diǎn)詞的情感分布是相似的,若一個(gè)主題下觀點(diǎn)詞的情感分布與全局觀點(diǎn)詞的情感分布存在明顯偏差,則認(rèn)為需要進(jìn)行情感的修正。
作為本發(fā)明進(jìn)一步的方案:所述的步驟(2)中,云期望曲線是通過(guò)逆向云發(fā)生器得到的。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢璞華大數(shù)據(jù)技術(shù)有限公司,未經(jīng)武漢璞華大數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611029643.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





