[發明專利]基于典型性的評論大數據挖掘方法有效
| 申請號: | 201410796566.X | 申請日: | 2014-12-18 |
| 公開(公告)號: | CN104462480B | 公開(公告)日: | 2017-11-10 |
| 發明(設計)人: | 劉耀強 | 申請(專利權)人: | 劉耀強 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州市華學知識產權代理有限公司44245 | 代理人: | 黃磊 |
| 地址: | 511400 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 典型性 評論 數據 挖掘 方法 | ||
技術領域
本發明涉及數據挖掘的研究領域,特別涉及一種基于典型性的評論大數據挖掘方法。
背景技術
隨著我國物聯網的高速發展,發布在電子商務網站、社交網絡及各種在線論壇上的評論呈現出爆炸性的增長,這些數以Petabytes(PB)計的評論大數據(Big Data)揭示了用戶對諸如消費產品、組織、人員和社會事件等一系列廣泛主題的個人觀點。這些商品評論不僅可以讓企業了解他們所關心的客戶或潛在客戶的真正需要,而且為消費者的購物決策提供了有益的指導。根據2014中國互聯網絡信息中心數據顯示,超過90%的網購用戶會在購物網站的商品下方發表評論。與此同時,超過一半的網購用戶表示在購買每一種商品前都會閱讀相關商品評論。例如,攜程網提供了一個讓客戶發布其對所住過酒店評論的平臺,通過該平臺上發布的酒店評論,不僅為其他客戶選擇合適的酒店提供了參考,酒店管理者也可以根據網上的反饋不斷提高服務質量,從而吸引更多的國內外客戶入住。此外,分析這些網上評論也可幫助政府部門較快和較廣泛地了解各地的民情,了解群眾對政府政策或社區發展的看法和觀點。總的來說,從用戶的角度來看,評論可以幫助用戶更全面、多角度地了解某個商品,從而做出是否購買該商品的決定。同時也可以讓用戶了解哪些商品才能滿足其需要。從企業的角度來看,廠商及服務供應商需要知道用戶對其產品的看法,即其產品從用戶體驗的角度來看哪些是優點哪些是缺點,這樣可以幫助產品制造商獲得更多、更全面的用戶反饋意見,從而可以更好地改良商品及服務。綜上所述,網上的評論蘊含豐富的有價值信息,值得我們進行深入挖掘和分析。
雖然網上評論對企業、監管機構和商品用戶有著十分重要的意義和作用。然而在大數據時代,對數量龐大的在線評論人工瀏覽和分析幾乎是不可能的,傳統的評論挖掘方法難以對評論大數據進行實時分析和總結,且由此得到的評論分析效果并不理想。在大數據背景下,建立智能網上評論觀點挖掘系統具有很高的研究和應用價值。例如,通過從評論大數據里挖掘出最小的代表性評論集合,讓系統用戶快速了解評論里不同的觀點,從而快速有效地監控市場趨勢或各地的民情。
發明內容
本發明的主要目的在于克服現有技術的缺點與不足,提供一種基于典型性的評論大數據挖掘方法,該方法利用認知心理學的“基層概念”(Basic Level Concept)理論和多原型理論來設計評論典型性計算,以挖掘出具有代表性的最小評論集合,并運用Hadoop平臺并行地處理評論大數據挖掘。。
為了達到上述目的,本發明采用以下技術方案:
基于典型性的評論大數據挖掘方法,包括下述步驟:
(1)評論典型性挖掘建模,對評論典型性計算和最小代表評論集合挖掘問題進行建模和形式化定義;
(2)典型性評論原型自動構建,基于認知心理學的“基層概念”理論和多原型理論來設計評論典型性計算方法,用“基層概念”理論中的類別效用來指導評論原型的生成;
(3)最小評論集合挖掘,采用最小評論集合挖掘算法,篩選出一個最小評論集合,該集合具有如下特點:集合里的每一條評論都不同且都能代表相當一部分用戶的觀點,該最小評論集合里的所有評論能涵蓋和代表該商品所有評論的觀點,用戶只需要瀏覽該最小評論集合里的評論,就可以了解所有該商品評論的用戶觀點;
(4)采用BigSimDet并行計算方法,通過調用分布式集群中的計算節點以并行的方式處理相似性評論檢測任務。
優選的,步驟(1)中,評論典型性挖掘建模的具體步驟為:
(1-1)把某個商品x的所有評論看成是一個“概念”,所述“概念”即商品x的評論,每一條評論則是這個“概念”的一個“實例”,則每條評論在該“概念”中都有不同的典型性,另外,在商品x的評論的所有評論中,抽取出一個最小代表評論集合,該評論集合有以下兩個屬性:
(1-1-1)集合所包含的所有n條評論能最大程度上代表所有用戶的不同類型的觀點;
(1-1-2)集合里的評論數量n為盡可能小;用戶只需瀏覽為數不多的n條評論就可以較全面地了解針對商品x的所有觀點和意見;
(1-2)采用“方面”來對商品評論進行形式化表示;
其中sa,i是一個屬于商品a的“方面”,va,i是評論中對于sa,i的情感極性值,即某一個方面的情感傾向值。
(1-3)對于評論典型性計算問題,可以看成是一個如下函數:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉耀強,未經劉耀強許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410796566.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文件系統評估方法及系統
- 下一篇:一種高光譜目標探測的方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





