[發明專利]一種快速的新聞文本內容情感分析系統及方法在審
| 申請號: | 201710309000.3 | 申請日: | 2017-05-04 |
| 公開(公告)號: | CN107045497A | 公開(公告)日: | 2017-08-15 |
| 發明(設計)人: | 余軍;盧品吟;劉盾;張汨 | 申請(專利權)人: | 成都華棲云科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 成都金英專利代理事務所(普通合伙)51218 | 代理人: | 袁英 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 新聞 文本 內容 情感 分析 系統 方法 | ||
1.一種快速的新聞文本內容情感分析系統,其特征在于包括以下模塊:
新聞抓取模塊:用于從新聞門戶、論壇及微博上抓取新聞文檔,其中包括對文本進行初步去重處理;
新聞文本初步處理模塊:用于對文本進行初步文本特征處理,包括分詞、去停用詞、對否定式短語進行額外標注;
新聞文本情感計算模塊:包括TextRank計算、分詞情感計算、對計算值進行歸一化處理、綜合計算得到文檔的情感指數;
數據存儲模塊:存儲計算后的結果。
2.一種快速的新聞文本內容情感分析方法,其特征在于包括如下步驟:
S01:從互聯網新聞門戶、論壇及微博爬取新聞,對文本去重;
S02:抽取文本信息,主要是來源、作者、標題、正文等信息;
S03:對標題、正文進行分詞,去掉停用詞;
S04:使用Text Rank計算每個詞的權重;
S05:同時根據情感詞典,得到每個詞的情感傾向及情感強度S;
S06:最后將詞的權重與詞的情感強度相乘,計算總和,進行歸一化處理,從而得到文檔的情感指數。
3.根據權利要求2所述的一種快速的新聞文本內容情感分析方法,其特征在于:所述的驟S04所述的使用Text Rank計算每個詞的權重,具體包括
給標題的詞語額外加權,加權算法為wt = n × wd ,其中,wt表示標題分詞,wd表示正文分詞,取值范圍是[0,100],n表示加權權重,范圍值是多少[2,10];
對分詞進行詞性過濾,只保留名詞性和動詞性分詞;
使用Text Rank算法計算每個詞的權重;
對計算結果進行歸一化處理,歸一化的計算方式為wt = wt /(max(wt) + 1),其中,wt表示有Text Rank計算的詞權重,max(wt)表示該文檔中最大的權重。
4.根據權利要求2所述的一種快速的新聞文本內容情感分析方法,其特征在于:所述的步驟S06中根據分詞計算文檔的情感指數,具體計算方式為
Sd = ∑(wt × St) × C/n
其中,Sd表示文檔的情感指數,wt表示每個分詞的權重,St表示每個分詞的情感指數范圍是[-100,100],C是一個常數范圍值是多少[1, 5],n表示該文檔內,單詞的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都華棲云科技有限公司,未經成都華棲云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710309000.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種車燈中光學單元間的調節裝置
- 下一篇:除霧霾路燈
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





