[發(fā)明專利]一種使用基于方面的情感分析方法的輿情監(jiān)控方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010108016.X | 申請(qǐng)日: | 2020-02-21 |
| 公開(kāi)(公告)號(hào): | CN111310476B | 公開(kāi)(公告)日: | 2021-11-02 |
| 發(fā)明(設(shè)計(jì))人: | 郭偉;姜濤;鹿旭東;崔立真 | 申請(qǐng)(專利權(quán))人: | 山東大學(xué) |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F16/35;G06F16/951;G06F16/955 |
| 代理公司: | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250100 山*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 使用 基于 方面 情感 分析 方法 輿情 監(jiān)控 系統(tǒng) | ||
1.一種使用基于方面的情感分析方法的輿情監(jiān)控方法,其特征是,包括:
構(gòu)建爬取新聞評(píng)論的爬蟲(chóng),爬取所需新聞及對(duì)應(yīng)的評(píng)論信息;
選擇監(jiān)控的帶有新聞評(píng)論的網(wǎng)站,選取一個(gè)種子URL,并將這個(gè)URL放入待抓取URL隊(duì)列;
從待抓取的URL隊(duì)列中,解析URL隊(duì)列中網(wǎng)址的網(wǎng)頁(yè)信息之后,判斷該網(wǎng)頁(yè)的新聞是否已經(jīng)在數(shù)據(jù)庫(kù)中,如果不在數(shù)據(jù)庫(kù)中,將解析出來(lái)的數(shù)據(jù)存到數(shù)據(jù)庫(kù)中;如果該網(wǎng)頁(yè)的新聞已經(jīng)存在于數(shù)據(jù)庫(kù),判斷評(píng)論是否在數(shù)據(jù)庫(kù)中,如果不在數(shù)據(jù)庫(kù)中,則在相應(yīng)新聞后面添加相應(yīng)的評(píng)論;將從網(wǎng)頁(yè)中解析出來(lái)的有效的URL存入待抓取隊(duì)列中;
對(duì)新聞及對(duì)應(yīng)的評(píng)論信息進(jìn)行處理,包括去除停用詞和對(duì)去除停用詞后的句子進(jìn)行分詞;
使用深度學(xué)習(xí)模型對(duì)處理后的評(píng)論信息進(jìn)行基于方面的情感分析,分析出新聞評(píng)論文本中的每個(gè)方面的情感;
使用LDA主題分布模型,識(shí)別每條新聞文本的主題;具體的:選擇足夠多的爬取到的新聞文本數(shù)據(jù)集,作為L(zhǎng)DA主題分布模型的訓(xùn)練集;基于LDA主題分布模型得到主題的詞分布概率;根據(jù)得到的主題的詞分布去判斷每個(gè)主題的實(shí)際含義;得到每篇文檔中每個(gè)詞的主題分布,選取概率最高的設(shè)定個(gè)的主題,作為這個(gè)文檔的主題;
對(duì)新聞文本的主題及新聞評(píng)論文本中的每個(gè)方面的情感進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)所有主題中消極評(píng)論最多的主題,然后將相關(guān)新聞按照熱度和消極情感的強(qiáng)度排序,將消極評(píng)論最多的主題和評(píng)論對(duì)該主題的消極的方面進(jìn)行展示;
當(dāng)這個(gè)熱度和消極情感的強(qiáng)度加權(quán)求和的值超過(guò)設(shè)定的閾值的時(shí)候,給用戶一個(gè)預(yù)警信息和一個(gè)詳細(xì)的輿情報(bào)告。
2.如權(quán)利要求1所述的一種使用基于方面的情感分析方法的輿情監(jiān)控方法,其特征是,將從網(wǎng)頁(yè)中解析出來(lái)的有效的URL存入待抓取隊(duì)列中時(shí):
定義一個(gè)map對(duì)象,其中key值存放URL,value值存放URL的狀態(tài),其中value值的取值是0和1,0代表該URL未解析,1表示該URL已經(jīng)解析完畢;
在將網(wǎng)頁(yè)解析出來(lái)的URL存入待抓取的隊(duì)列中前,首先去map對(duì)象中,判斷該URL是否存在,如果存在則不放入待抓取的URL隊(duì)列中,如果不存在則放入待抓取的URL隊(duì)列中,確保爬蟲(chóng)不會(huì)重復(fù)解析同一個(gè)URL頁(yè)面。
3.如權(quán)利要求1所述的一種使用基于方面的情感分析方法的輿情監(jiān)控方法,其特征是,對(duì)新聞及對(duì)應(yīng)的評(píng)論信息進(jìn)行處理:
遍歷存儲(chǔ)的新聞和評(píng)論,構(gòu)建一個(gè)停用詞的詞典,去除新聞評(píng)論中對(duì)于任務(wù)無(wú)關(guān)的信息;
使用分詞工具,對(duì)新聞和新聞評(píng)論文本進(jìn)行分詞,然后根據(jù)對(duì)應(yīng)的規(guī)則去除分詞不好的詞;
然后將處理過(guò)的數(shù)據(jù)再次存儲(chǔ)到數(shù)據(jù)庫(kù)中。
4.如權(quán)利要求3所述的一種使用基于方面的情感分析方法的輿情監(jiān)控方法,其特征是,對(duì)處理后的評(píng)論信息進(jìn)行基于方面的情感分析,包括:
使用訓(xùn)練好的bert+crf模型對(duì)新聞評(píng)論文本進(jìn)行方面的識(shí)別,識(shí)別出新聞文本評(píng)論中的表示方面的單詞;
使用context-attention模型去計(jì)算方面的上下文信息;
將context-attention獲取的方面上下文信息,輸入到GRU模型中去提取其上下文的情感特征,然后計(jì)算該方面的情感是積極、消極還是中立。
5.如權(quán)利要求1所述的一種使用基于方面的情感分析方法的輿情監(jiān)控方法,其特征是,對(duì)新聞文本的主題及新聞評(píng)論文本中的每個(gè)方面的情感進(jìn)行統(tǒng)計(jì)時(shí),統(tǒng)計(jì)展示每篇文檔的主題,或根據(jù)主題展示該主題的新聞;
統(tǒng)計(jì)分析出每個(gè)新聞下面,每條評(píng)論文本的方面和情感,對(duì)相似的方面進(jìn)行合并,然后顯示出每個(gè)方面的情感,按照積極、消極和中立顯示所有的方面和相關(guān)的評(píng)論。
6.一種計(jì)算裝置,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征是,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)權(quán)利要求1-5中任一所述的一種使用基于方面的情感分析方法的輿情監(jiān)控方法的步驟。
7.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征是,該程序被處理器執(zhí)行時(shí)執(zhí)行權(quán)利要求1-5中任一所述的一種使用基于方面的情感分析方法的輿情監(jiān)控方法的步驟。
8.一種使用基于方面的情感分析方法的輿情監(jiān)控系統(tǒng),其特征是,包括服務(wù)器及與之通信連接的客戶端:
所述服務(wù)器被配置為:
構(gòu)建爬取新聞評(píng)論的爬蟲(chóng),爬取所需新聞及對(duì)應(yīng)的評(píng)論信息;
選擇監(jiān)控的帶有新聞評(píng)論的網(wǎng)站,選取一個(gè)種子URL,并將這個(gè)URL放入待抓取URL隊(duì)列;
從待抓取的URL隊(duì)列中,解析URL隊(duì)列中網(wǎng)址的網(wǎng)頁(yè)信息之后,判斷該網(wǎng)頁(yè)的新聞是否已經(jīng)在數(shù)據(jù)庫(kù)中,如果不在數(shù)據(jù)庫(kù)中,將解析出來(lái)的數(shù)據(jù)存到數(shù)據(jù)庫(kù)中;如果該網(wǎng)頁(yè)的新聞已經(jīng)存在于數(shù)據(jù)庫(kù),判斷評(píng)論是否在數(shù)據(jù)庫(kù)中,如果不在數(shù)據(jù)庫(kù)中,則在相應(yīng)新聞后面添加相應(yīng)的評(píng)論;將從網(wǎng)頁(yè)中解析出來(lái)的有效的URL存入待抓取隊(duì)列中;
對(duì)新聞及對(duì)應(yīng)的評(píng)論信息進(jìn)行處理,包括去除停用詞和對(duì)去除停用詞后的句子進(jìn)行分詞;
使用深度學(xué)習(xí)模型對(duì)處理后的評(píng)論信息進(jìn)行基于方面的情感分析,分析出新聞評(píng)論文本中的每個(gè)方面的情感;
使用LDA主題分布模型,識(shí)別每條新聞文本的主題;具體的:選擇足夠多的爬取到的新聞文本數(shù)據(jù)集,作為L(zhǎng)DA主題分布模型的訓(xùn)練集;基于LDA主題分布模型得到主題的詞分布概率;根據(jù)得到的主題的詞分布去判斷每個(gè)主題的實(shí)際含義;得到每篇文檔中每個(gè)詞的主題分布,選取概率最高的設(shè)定個(gè)的主題,作為這個(gè)文檔的主題;
對(duì)新聞文本的主題及新聞評(píng)論文本中的每個(gè)方面的情感進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)所有主題中消極評(píng)論最多的主題,然后將相關(guān)新聞按照熱度和消極情感的強(qiáng)度排序,將消極評(píng)論最多的主題和評(píng)論對(duì)該主題的消極的方面進(jìn)行展示;
當(dāng)這個(gè)熱度和消極情感的強(qiáng)度加權(quán)求和的值超過(guò)設(shè)定的閾值的時(shí)候,給用戶一個(gè)預(yù)警信息和一個(gè)詳細(xì)的輿情報(bào)告;
所述服務(wù)器中建立數(shù)據(jù)庫(kù),用于對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010108016.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





