[發(fā)明專利]基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201310329800.3 | 申請日: | 2013-07-31 |
| 公開(公告)號: | CN103399916A | 公開(公告)日: | 2013-11-20 |
| 發(fā)明(設(shè)計(jì))人: | 徐華;王瑋;萬偉 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100084 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 產(chǎn)品 特征 互聯(lián)網(wǎng) 評論 觀點(diǎn) 挖掘 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)與互聯(lián)網(wǎng)領(lǐng)域,特別涉及一種基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法及基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)的不斷普及和web2.0的飛速發(fā)展,互聯(lián)網(wǎng)所傳達(dá)的公眾對于社會事件,熱點(diǎn)人物以及電商產(chǎn)品的評論信息受到了各方的特別關(guān)注。信息傳播的特點(diǎn)上,互聯(lián)網(wǎng)具有多模態(tài)信息的交互性,能夠快速有效地傳播網(wǎng)民觀點(diǎn),從而形成一定的社會輿情導(dǎo)向,因而它在信息的傳播速度、信息的實(shí)效性、社會影響力以及輿論導(dǎo)向等方面與傳統(tǒng)媒體相比有很大的優(yōu)越性。用戶不僅僅是一個簡單的信息瀏覽者的角色,也是一個信息的發(fā)布者。論壇,博客,評論網(wǎng)站,郵件,微博等都給Web?2.0時代的用戶提供了一個發(fā)布信息,表達(dá)自己觀點(diǎn)的場所。于是,互聯(lián)網(wǎng)上開始產(chǎn)生了大量的含有主觀色彩的評論信息,這些信息可以是用戶針對某一種產(chǎn)品,某一些服務(wù)的看法或者使用心得,也可以是用戶針對某個社會事件所持有的觀點(diǎn)等。隨著越來越多的用戶開始在互聯(lián)網(wǎng)上發(fā)布自己的觀點(diǎn),互聯(lián)網(wǎng)上的用戶評論也不斷增長。從這些海量的用戶評論中快速提取出有參考價值的信息也變得越來越復(fù)雜。不僅收集評論信息消耗的時間越來越長,而且僅僅依靠人力已經(jīng)很難收集并分析整理用戶評論中的矛盾信息和評論對象的不足。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決上述技術(shù)問題之一或至少提供一種有用的商業(yè)選擇。為此,本發(fā)明的一個目的在于提出一種既能給用戶的購買提供參考,又能給生產(chǎn)廠商提供產(chǎn)品的改進(jìn)建議的基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法。
本發(fā)明的另一目的在于提出一種基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘系統(tǒng)。
為達(dá)到上述目的,本發(fā)明第一方面提出了一種基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法,包括以下步驟:從互聯(lián)網(wǎng)上獲取產(chǎn)品信息及對應(yīng)的評論信息;從所述評論信息中抽取產(chǎn)品特征,并從所述產(chǎn)品特征中提取出相關(guān)聯(lián)的顯式特征評論及隱式特征評論;利用所述顯式特征評論和所述隱式特征評論在句子粒度上進(jìn)行情感分類;以及依據(jù)所述產(chǎn)品特征及對應(yīng)的所述情感分類結(jié)果生成情感文摘提供給用戶。
根據(jù)本發(fā)明實(shí)施例的基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法,所述抽取產(chǎn)品特征的步驟包括:通過關(guān)聯(lián)規(guī)則挖掘的方法提取出所述評論信息中出現(xiàn)的名詞以及名詞短語;通過定義規(guī)則對所述名詞及名詞短語進(jìn)行剪枝去除噪聲,從而提取出被頻繁描述的產(chǎn)品特征;以及對提取出的所述產(chǎn)品特征進(jìn)行聚類,合并相似概念,得到所有所述產(chǎn)品特征的集合。
根據(jù)本發(fā)明實(shí)施例的基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法,所述的抽取產(chǎn)品特征隱式特征評論的方法為:基于關(guān)聯(lián)規(guī)則挖掘的方法,或通過訓(xùn)練分類模型進(jìn)行分類的方法。
根據(jù)本發(fā)明實(shí)施例的基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法,所述基于關(guān)聯(lián)規(guī)則挖掘的方法,包括以下步驟:根據(jù)描述所述產(chǎn)品特征的詞和短語,從原始數(shù)據(jù)集中抽取包含顯式特征的評論;利用詞頻統(tǒng)計(jì)和頻繁項(xiàng)集挖掘的方法從所述顯式特征評論中抽取出和目標(biāo)特征關(guān)聯(lián)密切的詞語及多維頻繁項(xiàng);利用自然語言處理領(lǐng)域的搭配提取方法對所述詞語及多維頻繁項(xiàng)進(jìn)行過濾,從而得到可靠的關(guān)聯(lián)規(guī)則;以及將所述規(guī)則用于不含顯式特征的評論,抽取出相關(guān)隱式特征的評論。
根據(jù)本發(fā)明實(shí)施例的基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法,所述機(jī)器學(xué)習(xí)的方法,包括以下步驟:抽取包含顯式特征的相關(guān)評論信息,作為訓(xùn)練的樣本數(shù)據(jù);對訓(xùn)練的所述樣本數(shù)據(jù),進(jìn)行詞性過濾,再使用基于傳統(tǒng)的特征選擇方法,或基于主題模型的方法,選擇合適的訓(xùn)練屬性,將所述相關(guān)評論信息數(shù)字化,建立訓(xùn)練樣本的空間向量模型;以及利用機(jī)器學(xué)習(xí)的方法,分別應(yīng)用每一個產(chǎn)品的特征訓(xùn)練分類模型,對非顯式特征評論的語句是否包含對應(yīng)的隱式特征進(jìn)行二分類,進(jìn)而判斷每條評論所描述的隱式特征。
根據(jù)本發(fā)明實(shí)施例的基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法,所述對評論信息在句子粒度上進(jìn)行情感分類,包括:在情感詞典的基礎(chǔ)上,加入用戶情感表述規(guī)則,進(jìn)行所述評論信息在句子粒度級別的情感分類;以及通過對語料庫進(jìn)行統(tǒng)計(jì),針對每個產(chǎn)品特征建立了一個情感極性動態(tài)變化的詞典,通過對所述評論信息的上下文語境分析,迭代地推斷出了所述評論信息針對對應(yīng)的所述產(chǎn)品特征的情感分類。
根據(jù)本發(fā)明實(shí)施例的基于產(chǎn)品特征的互聯(lián)網(wǎng)評論觀點(diǎn)挖掘方法,依據(jù)所述產(chǎn)品特征及對應(yīng)的所述情感分類結(jié)果生成情感文摘提供給用戶的步驟,進(jìn)一步包括:去除重復(fù)內(nèi)容較多、過于簡短以及用戶評論態(tài)度不夠認(rèn)真的所述評論信息;以及對所述評論信息按照褒貶義進(jìn)行排序,針對每個所述產(chǎn)品特征,按照用戶的總體褒貶義情感傾向的比例,挑選出有代表性的所述評論信息生成情感文摘。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310329800.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品





