[發(fā)明專利]一種文本的話題和情感聯(lián)合檢測方法及裝置有效
| 申請?zhí)枺?/td> | 201710301293.0 | 申請日: | 2017-05-02 |
| 公開(公告)號: | CN107273348B | 公開(公告)日: | 2020-12-18 |
| 發(fā)明(設(shè)計)人: | 傅向華;武海瑛 | 申請(專利權(quán))人: | 深圳大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289 |
| 代理公司: | 深圳青年人專利商標代理有限公司 44350 | 代理人: | 吳桂華 |
| 地址: | 518060 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 話題 情感 聯(lián)合 檢測 方法 裝置 | ||
本發(fā)明適用機器學習技術(shù)領(lǐng)域,提供了一種文本的話題和情感聯(lián)合檢測方法及裝置,該方法包括:接收待檢測的目標文本,使用預設(shè)的情感詞典計算目標文本中每個詞的初始情感傾向,將預先訓練得到的詞向量設(shè)置為目標文本的詞向量的初始值,使用預設(shè)模型對目標文本進行訓練,以得到目標文本中各個情感話題對與詞之間的初始分配和各個情感對應的話題向量,將得到的話題向量設(shè)置為目標文本的情感對應的話題向量的初始值,根據(jù)得到的初始情感傾向、初始值以及初始分配,對目標文本中包括的每篇文檔進行掃描,依次對掃描到的每個訓練目標詞執(zhí)行預設(shè)的話題和情感檢測步驟,從而得到目標文本所涉及的話題和情感,提高了獲得的目標文本的話題和情感的準確度。
技術(shù)領(lǐng)域
本發(fā)明屬于機器學習技術(shù)領(lǐng)域,尤其涉及一種文本的話題和情感聯(lián)合檢測方法及裝置。
背景技術(shù)
近年來,隨著移動互聯(lián)網(wǎng)的迅猛普及和發(fā)展,微博、博客、論壇、微信等大量新興社會媒體不斷涌現(xiàn),使得用戶在個人電腦和移動終端表達意見、分享評論變得越來越便捷,因此越來越多的不同年齡段的用戶都積極的參與到產(chǎn)品、服務、新聞等的實體評論中。面對海量的數(shù)據(jù),如何有效地對其內(nèi)容進行組織、整理、挖掘和分析,以準確識別出其中包含的觀點信息和情感傾向,對于各個行業(yè)的企業(yè)及時了解用戶訴求,掌握市場態(tài)勢有著重要的現(xiàn)實意義,同時也是自然語言處理領(lǐng)域研究的熱點問題。
聯(lián)合話題情感混合模型的主要目標是通過對大量的文本集合進行分析、處理,歸納總結(jié)并推理出文本所隱含的語義結(jié)構(gòu)和情感傾向,以鑒別其所討論的話題和情感傾向。現(xiàn)有的大部分聯(lián)合話題情感分析方法在概率話題模型的基礎(chǔ)上進行擴展,以詞作為基本屬性,將文本表示為詞的集合,可有效捕捉文檔隱含話題。
然而,一方面,現(xiàn)有提出的聯(lián)合話題情感分析方法,大多只是從數(shù)據(jù)本身的屬性出發(fā),以詞為基本特征,基于詞共現(xiàn)統(tǒng)計進行話題概率計算,每個詞都被看作是一個單一的實體,各詞語、語句之間語義層面的聯(lián)系考慮較少,難以滿足實際應用的需要。一般說來,共現(xiàn)次數(shù)越多的詞,越有可能被分配在同一話題下。但當語料數(shù)較少或文本篇幅較短時,文本特征稀疏并且維度較高,這種單純依靠詞頻統(tǒng)計進行話題和情感分配的方法往往會因為語義信息不足而造成情感分布和話題分布的結(jié)果不夠理想。另一方面,現(xiàn)有的聯(lián)合話題情感分析方法并沒有考慮詞語與詞語之間的依賴關(guān)系,文本中詞語與詞語之間的依賴關(guān)系蘊含了非常豐富的語義信息,這種依賴關(guān)系對話題識別和情感分類的效果影響很大,因此,不考慮詞語與詞語之間的依賴關(guān)系時,獲取的話題下情感分布的準確度不高。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種文本的話題和情感聯(lián)合檢測方法及裝置,旨在解決現(xiàn)有技術(shù)的文本情感和話題聯(lián)合檢測準確率不高的問題。
一方面,本發(fā)明提供了一種文本的話題和情感聯(lián)合檢測方法,所述方法包括下述步驟:
接收待檢測的目標文本,使用預設(shè)的情感詞典計算所述待檢測的目標文本中每個詞的初始情感傾向;
獲取預先訓練得到的詞向量,將所述獲取的詞向量設(shè)置為所述待檢測的目標文本的詞向量的初始值;
使用預設(shè)的聯(lián)合話題情感混合模型對所述待檢測的目標文本進行訓練,以得到所述待檢測的目標文本中各個情感話題對與詞之間的初始分配和所述各個情感對應的話題向量;
將所述得到的所述情感對應的話題向量設(shè)置為所述待檢測的目標文本的情感對應的話題向量的初始值;
根據(jù)所述目標文本中每個詞的初始情感傾向、所述詞向量和話題向量的初始值以及所述各個情感話題對與詞之間的初始分配,對所述目標文本中包括的每篇文檔進行掃描,依次對掃描到的每個訓練目標詞執(zhí)行預設(shè)的話題和情感檢測步驟,以得到所述目標文本所涉及的話題和情感。
另一方面,本發(fā)明提供了一種文本的話題和情感聯(lián)合檢測裝置,所述裝置包括:
情感傾向計算單元,用于接收待檢測的目標文本,使用預設(shè)的情感詞典計算所述待檢測的目標文本中每個詞的初始情感傾向;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳大學,未經(jīng)深圳大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710301293.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 便攜信息終端、以及便攜信息終端的控制方法
- 電法與地震同步聯(lián)合反演方法及系統(tǒng)
- 銀行聯(lián)合放款的放款方法、裝置及計算機可讀存儲介質(zhì)
- 一種基于自主學習群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 一種基于多目標種群群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 聯(lián)合貸款中的罰息與利息結(jié)算方法、裝置、介質(zhì)和設(shè)備
- 一種基坑支護用H型鋼構(gòu)件
- 用于云環(huán)境的語義元聯(lián)合代理





