[發明專利]一種用于度量主流情感信息的中文情感文摘系統及方法有效
| 申請號: | 201410034395.7 | 申請日: | 2014-01-24 |
| 公開(公告)號: | CN103744838A | 公開(公告)日: | 2014-04-23 |
| 發明(設計)人: | 陳國龍;廖祥文;潘敏;郭文忠;魏晶晶 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 度量 主流 情感 信息 中文 文摘 系統 方法 | ||
技術領域
本發明涉及產品領域的情感文摘技術領域,更具體地,涉及一種用于度量主流情感信息的中文情感文摘系統及方法,適用于歸納總結各產品的評論數據,幫助用戶快速了解產品的關鍵信息。
背景技術
情感文摘旨在提取具有明顯傾向性的情感信息。情感信息的度量是獲取情感文摘的主要步驟。在現有技術中,存在一些度量文摘中情感信息的方法。然而這些方法大多數是根據評價對象、評價詞、極性來度量情感信息,并不足以表達情感信息的情感強度。這是因為,如果兩個句子擁有同樣的評價對象,評價對象所對應評價詞的極性也是一樣的,但是極性強度不一樣,評論者所表達觀點的情感強弱也不一樣。
同時,情感文摘中應該包含盡可能多的產品屬性及其觀點,且文摘句子之間冗余信息應盡可能少,即多樣性。目前,存在一些方法用于解決文本文摘中多樣性問題。Wan等提出基于manifold-ranking的方法,先根據manifold-ranking算法計算句子和查詢之間的相關度,選擇排名最高的句子放進摘要中,接著加入懲罰函數,度量剩下句子和文摘句子之間的重疊值。Fukumoto?等提出采用譜聚類的方法代替K-means算法,實現降維去噪的目的,而且使得分類更準確,從而提高文摘結果的準確度。Yan等把多樣性的問題轉化為兩個詞分布之間的相似度問題,根據Kullback-Leibler散度的方法進行度量。然而,以上的方法大多適用于傳統文檔文摘,然而對于產品領域的情感文摘,用戶更多關注的是評論者對產品屬性所表達的觀點。
因此,圍繞這兩個問題,引入極性強度,同時結合評價對象、評價短語等情感元素,分析這些情感元素對情感信息中情感強弱、多樣性問題的影響,提出相對應的解決方案,以提高中文情感文摘的精度。
發明內容
本發明的目的在于提供一種用于度量主流情感信息的中文情感文摘系統及方法,該系統及方法有利于從評論數據中提取包含主流情感信息的情感文摘,準確度高,適應范圍廣。
為實現上述目的,本發明的技術方案是:一種用于度量主流情感信息的中文情感文摘系統,該系統包括:
評論數據預處理模塊,用于抽取評論數據中每個句子包含的各個評價對象及其對應的評價短語,轉化為由評價對象及其對應的情感強度等級構成的單位,所述情感強度等級由相應的評價短語計算得到;建立與各個評價對象相對應的評價對象數據結構,所述評價對象數據結構包含以下信息:評價對象、該評價對象在評論數據中對應的所有評價短語構成的集合即評價短語集合、該評價對象出現的次數、第一數組、第二數組、第三數組和第四數組,所述第一數組、第二數組、第三數組中的元素分別與評價短語集合中的元素一一對應,第一數組中每個元素表示所對應評價短語在評論數據中出現的次數,第二數組中每個元素表示所對應評價短語和該評價對象在評論數據中共現的次數,第三數組中每個元素表示所對應評價短語的情感強度等級,第四數組中包括n個元素,表示該評價對象與n類情感強度等級之間的情感信息量;將評論數據轉化成句子集合,所述句子集合中的每個元素與評論數據中的每個句子相對應,句子集合中的每個元素包含以下信息:該句子在評論數據中的位置、該句子的內容、該句子的類別、該句子包含的所有單位構成的集合、該句子的情感信息量;
單位情感信息度量模塊,用于計算每個單位的情感信息量:以評論數據預處理模塊構建的評價對象數據結構作為輸入,對于每個評價對象,根據情感強度等級不同對評價短語進行分類,然后計算評價對象和每一類評價短語的情感信息量,獲取評價對象和n類情感強度等級之間的情感信息量,最后獲得全部單位的情感信息量;
句子情感信息度量模塊,用于計算每個句子的情感信息量:以句子集合和單位情感信息度量模塊處理后的評價對象數據結構作為輸入,先利用聚類算法對所有的句子進行分類,使內容相似的句子聚類,獲得每個句子的類別,每個類別的情感信息量根據每個類別所包含的單位進行計算,句子和類別之間的關聯程度也根據句子和類別所包含的單位進行計算,句子之間的關聯程度根據句子所包含單位之間的距離進行計算,最后迭代求取每個句子的情感信息量;以及
情感文摘生成模塊,用于生成情感文摘:以句子情感信息度量模塊處理后的句子集合作為輸入,根據句子的情感信息量大小對所有句子進行排序,選擇前k個句子組成最終的情感文摘。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410034395.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種婚慶舞臺照明專用LED射燈
- 下一篇:一種基于路徑的文字創建方法





