[發明專利]一種基于深度學習的圖片情感極性分析方法有效
| 申請號: | 201710059051.5 | 申請日: | 2017-01-23 |
| 公開(公告)號: | CN106886580B | 公開(公告)日: | 2020-01-17 |
| 發明(設計)人: | 毋立芳;劉爽;祁銘超;張磊;簡萌 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953 |
| 代理公司: | 11203 北京思海天達知識產權代理有限公司 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 圖片 情感 極性 分析 方法 | ||
一種基于深度學習的圖片情感極性分析方法涉及圖像內容理解和大數據分析技術領域。傳統方法圖片情感分析方法由于模型和特征簡單使得最終預測精度不理想。目前使用深度學習的方法在大規模訓練集中進行訓練,但是訓練集的噪音過大,使得最終的性能受限。本發明采用直接從網絡中獲取數據的方式,從數據規模大。只有在數據準備時需要得到的一個常用詞語的情感極性信息可能需要人工標注。之后在整個的圖像獲取和清洗工作全都可以自動完成,需要的人工成本很低。在數據獲取階段,引入了兩次數據清洗過程,可以清除很大一部分圖片與標簽不一致的噪音。本發明將先驗知識用于訓練集對訓練集進行過濾,使得訓練集的噪音減少,并輔以改進的網絡結構,使圖片情感預測準確率得到提升。
技術領域
本發明涉及圖像內容理解和大數據分析技術領域,特別是涉及一種圖片情感分析方法。
背景技術
隨著互聯網的發展和智能手機的普及,社交網絡在人的日常生活中有著不可替代的地位。越來越多的人開始通過社交網絡平臺表達自己觀點,大量的用戶生成數據也因此而生成。
用戶生成數據(User Generated Content,UGC),是指由用戶上傳的原創內容,這些內容來源于用戶,最終又服務于用戶。在web2.0時代,用戶不在被動的接受互聯網內容,而是作為主體參與其中,在充當使用者的角色之外,也成為了生產者和傳播者。
面對龐大的用戶生成數據,如何有效利用就成了現在急需解決的問題。針對于這些數據,意見挖掘和情感分析的相關研究開始成為研究熱點。它們分析UGC數據去做輿情分析,分析民眾對于某個事件的反應,預測票房、預測股票走勢等等。
但是目前這些研究和方法普遍基于文本信息。而在社交網絡中,用戶數據是多元的,不但包括文字,還包括圖片,視頻等。
對于文字,不同地域不同背景的人可能有不同的理解,但是對于圖片,人們的反應往往具有一致性。而且現在用于圖形計算的設備越來越便宜而且性能也越來越強,這使得做大規模的圖形計算變得可能。
目前對于圖片的情感分析問題,目前普遍采用監督學習的方法。即先收集一個帶標注的圖片集,然后利用機器學習方法訓練模型,最后利用訓練好的模型對新圖片進行情感分析。
早期的方法利用手工收集的圖片集并使用簡單分類器進行分類,例如:JianboYuan在2013年發表的文章“Sentribute:image sentiment analysis from a mid-levelperspective”中使用了SUN這一手工標注數據集,其中包括14340張手工標注圖像,利用SVM作為學習工具并輔以人臉表情識別對圖像進行情感分析。
隨著機器學習模型的復雜,小規模數據集已經不能滿足訓練要求。所以在最新的工作中普遍采用網絡收集數據集的方式獲取數據集。例如:Stefan Siersdorfer在2010年發表的文章“Analyzing and Predicting Sentiment of Images on the Social Web”中使用SentiWordNet情感詞典中正負情感強度前1000的詞語作為檢索詞在Flickr中檢索得到了586000圖像用于情感分析模型的訓練;Damian Borth在2013年發表的文章“Large-scale Visual Sentiment Ontology and Detectors Using Adjective Noun Pairs”中利用1200形容詞名詞對作為檢索詞在Flickr中進行檢索并整理形成一個大規模情感分析數據集Sentibank。Sentibank是目前使用比較廣泛的情感分析數據集,但是由于其中的圖片是直接從網絡中獲取然后保存,所以噪音很大,嚴重制約著后續的情感分析精度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710059051.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:實時流式文本分級監控方法和裝置
- 下一篇:數據網絡關系處理方法及裝置





