[發明專利]一種基于約束關系的意見目標和情感詞聯合聚類方法有效
| 申請號: | 201310701519.8 | 申請日: | 2013-12-18 |
| 公開(公告)號: | CN103646097A | 公開(公告)日: | 2014-03-19 |
| 發明(設計)人: | 牛振東;黃勝;劉沙;陳杰 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 約束 關系 意見 目標 情感 聯合 方法 | ||
技術領域
本發明屬于Web評論文本的意見挖掘技術領域,涉及一種基于約束關系的意見目標和情感詞聯合聚類方法,用于解決互聯網上用戶生成的主觀性評論文本中意見目標和情感詞的聚類問題。?
背景技術
近年來,隨著電子商務的快速發展以及網絡購物人數的增加,互聯網上用戶關于商品的意見評論也越來越豐富。用戶可以自由地針對意見目標發表自己的主觀情感。例如,在數碼相機領域的用戶評論“The?photo?quality?of?Canon?camera?is?excellent”中,意見目標是“photo?quality”,用戶情感詞是“excellent”。由于用戶評論的隨意性和表達習慣不同,針對同一意見特征,不同的用戶可能會采用不同的表達方式。例如,在相機領域中,“photo”與“image”均用于描述照片特征。此外,同一個表達短語在不同領域中也可能描述不同的意見特征。如電影領域中“picture”代表畫面特征,而在手機領域中“picture”則表示圖片特征。隨著Web上用戶評論文本的規模日益增大,抽取的意見目標和情感詞數也不斷擴大,亟需一種對離散的意見目標集合和情感詞集合進行自動歸類的方法。本發明提出一種基于約束關系的意見目標和情感詞的聯合聚類方法,對意見目標集合按照意見特征自動歸類,對情感詞集合按照與意見特征類的關聯進行歸類。?
現有的意見目標歸類方法主要分為基于無監督學習的方法和基于主題建模的方法。早期的研究主要采用無監督學習方法,核心思想是計算意見目標之間的相似度,采用分類算法對意見目標集合進行自動歸類。但是,在計算相似度方面,利用人工構建的詞匯語義關系的算法準確率不高,因為其忽略了意見目標相似度的領域依賴性,同時也會產生覆蓋率不足的問題。基于領域語料庫的方法利用意見目標的上下文信息計算相似度,雖然在一定程度上緩解了意見目標相似度的領域依賴性問題,卻面臨計算空間的高維度和稀疏性問題。?
基于主題建模的方法通過在評論語料上的統計學習,訓練主題生成模型,?將生成的主題對應為意見目標類別。然而,這些方法生成的主題粒度較粗,并不能很好地對應細粒度的評價特征類,同時,基于對評論語料統計學習的算法忽略了局部上下文特征。?
發明內容
本發明的目的是為了克服現有用戶意見目標和情感詞聚類方法的不足,提出了一種基于約束關系的意見目標和情感詞聯合聚類方法。為了克服傳統聚類方法缺乏先驗知識和不能有效地利用評論對象的上下文關系的問題,通過引入意見目標之間的正反向約束關系,并且充分挖掘意見目標與情感詞之間的關聯,引入情感詞之間的正反向約束關系,對意見目標和情感詞進行聯合聚類,從而有效地提高了評論文本中意見目標和情感詞的聚類效果。?
本發明所采用的技術方案如下:?
首先對意見目標的約束關系進行定義。?
意見目標的正向約束關系:如果兩個意見目標之間存在共同的名詞或者名詞短語,則定義兩者之間存在意見目標的正向約束關系。?
意見目標的反向約束關系:在同一個評論文本單元中,如果意見目標之間存在句子級別上的共現關系,或者意見目標之間具有相反的評價意見傾向,則定義它們之間存在意見目標的反向約束關系。?
其次對情感詞的約束關系進行定義。?
已知和分別表示與情感詞oi與oj相關聯的的意見目標集合,定義與?之間的重合度Overlap為:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310701519.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:玉米秸稈青貯法
- 下一篇:掃描機臺程式控制方法





