[發明專利]基于產品特征的互聯網評論觀點挖掘方法及系統在審
| 申請號: | 201310329800.3 | 申請日: | 2013-07-31 |
| 公開(公告)號: | CN103399916A | 公開(公告)日: | 2013-11-20 |
| 發明(設計)人: | 徐華;王瑋;萬偉 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100084 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 產品 特征 互聯網 評論 觀點 挖掘 方法 系統 | ||
1.一種基于產品特征的互聯網評論觀點挖掘方法,其特征在于,包括以下步驟:
從互聯網上獲取產品信息及對應的評論信息;
從所述評論信息中抽取產品特征,并從所述產品特征中提取出相關聯的顯式特征評論及隱式特征評論;
利用所述顯式特征評論和所述隱式特征評論在句子粒度上進行情感分類;以及
依據所述產品特征及對應的所述情感分類結果生成情感文摘提供給用戶。
2.根據權利要求1所述的基于產品特征的互聯網評論觀點挖掘方法,其特征在于,所述抽取產品特征的步驟包括:
通過關聯規則挖掘的方法提取出所述評論信息中出現的名詞以及名詞短語;
通過定義規則對所述名詞及名詞短語進行剪枝去除噪聲,從而提取出被頻繁描述的產品特征;以及
對提取出的所述產品特征進行聚類,合并相似概念,得到所有所述產品特征的集合。
3.根據權利要求1所述的基于產品特征的互聯網評論觀點挖掘方法,其特征在于,所述的抽取產品特征隱式特征評論的方法為:基于關聯規則挖掘的方法和基于機器學習的方法。
4.根據權利要求3所述的基于產品特征的互聯網評論觀點挖掘方法,其特征在于,所述基于關聯規則挖掘的方法,包括以下步驟:
根據描述所述產品特征的詞和短語,從原始數據集中抽取包含顯式特征的評論;
利用詞頻統計和頻繁項集挖掘的方法從所述顯式特征評論中抽取出和目標特征關聯密切的詞語及多維頻繁項;
利用自然語言處理領域的搭配提取方法對所述詞語及多維頻繁項進行過濾,從而得到可靠的關聯規則;以及
將所述規則用于不含顯式特征的評論,抽取出相關隱式特征的評論。
5.根據權利要求3所述的基于產品特征的互聯網評論觀點挖掘方法,其特征在于,所述基于機器學習的方法,包括以下步驟:
抽取包含顯式特征的相關評論信息,作為訓練的樣本數據;
對訓練的所述樣本數據,進行詞性過濾,再使用基于傳統的特征選擇方法,或基于主題模型的方法,選擇合適的訓練屬性,將所述相關評論信息數字化,建立訓練樣本的空間向量模型;以及
利用機器學習的方法,分別應用每一個產品的特征訓練分類模型,對非顯式特征評論的語句是否包含對應的隱式特征進行二分類,進而判斷每條評論所描述的隱式特征。
6.根據權利要求1所述的基于產品特征的互聯網評論觀點挖掘方法,其特征在于,所述對評論信息在句子粒度上進行情感分類,包括:
在情感詞典的基礎上,加入用戶情感表述規則,進行所述評論信息在句子粒度級別的情感分類;以及
通過對語料庫進行統計,針對每個產品特征建立了一個情感極性動態變化的詞典,通過對所述評論信息的上下文語境分析,迭代地推斷出了所述評論信息針對對應的所述產品特征的情感分類。
7.根據權利要求1所述的基于產品特征的互聯網評論觀點挖掘方法,其特征在于,依據所述產品特征及對應的所述情感分類結果生成情感文摘提供給用戶的步驟,進一步包括:
去除重復內容較多、過于簡短以及用戶評論態度不夠認真的所述評論信息;以及
對所述評論信息按照褒貶義進行排序,針對每個所述產品特征,按照用戶的總體褒貶義情感傾向的比例,挑選出有代表性的所述評論信息生成情感文摘。
8.一種基于產品特征的互聯網評論觀點挖掘系統,其特征在于,包括:
爬蟲模塊,所述爬蟲模塊用于從互聯網上獲取產品信息及對應的評論信息;
產品特征抽取模塊,所述產品特征抽取模塊與所述爬蟲模塊相連,用于從所述評論信息中抽取產品特征,并且進一步從所述產品特征中提取出相關聯的顯式特征評論及隱式特征評論;
觀點挖掘模塊,所述觀點挖掘模塊與所述產品特征抽取模塊相連,用于利用所述顯式特征評論和所述隱式特征評論在句子粒度上進行情感分類;以及
情感文摘生成模塊,所述情感文摘生成模塊與所述觀點挖掘模塊相連,用于將所述產品特征及對應的所述情感分類結果生成情感文摘提供給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310329800.3/1.html,轉載請聲明來源鉆瓜專利網。





