[發明專利]一種基于大數據觀點挖掘的產品特征提取方法在審
| 申請號: | 201710395967.8 | 申請日: | 2017-05-31 |
| 公開(公告)號: | CN107273351A | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 王振宇;周逸舒;王勇;陳珍珍 | 申請(專利權)人: | 溫州市鹿城區中津先進科技研究院 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 325000 浙江省溫*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 觀點 挖掘 產品 特征 提取 方法 | ||
技術領域
本發明涉及一種基于大數據觀點挖掘的產品特征提取方法,以幫助生產商和服務商有針對性地改進產品性能和指導用戶對產品的各個性能有比較全面的了解。
背景技術
電子商務的蓬勃發展,激發了網絡購物的熱潮。網絡評論不僅作為反饋機制幫助生產者和銷售商提升產品性能,而且有效幫助客戶做出合理的決策,然而評論信息的迅速增長,迫切需要借助一定的技術手段來使這一過程變得更為準確而便捷。網絡上現有的星級評定已經不足以幫助生產者、銷售者和客戶清晰定位產品的優勢所在和劣勢所在。目前,基于產品特征進行觀點挖掘已經引起人們的廣泛關注。產品特征指的是產品的部件,屬性,以及性能等對象。
產品特征提取的方式有兩種,人工定義和自動提取。Kobayashi N等人工定義了汽車的特征詞,Zhuang L 等人工定義了電影的特征詞,Liu B 等采用關聯規則,利用Apriori 算法獲得頻繁項集的方法自動獲取產品特征候選集( 名詞或者名詞短語),李實等在中文語料中,采用基于Apriori 算法的非監督型產品特征挖掘算法,實現產品特征的信息挖掘,Somprasertsri G 等根據句法分析,采用特征詞與情感詞的6 種不同關系獲取產品特征,Wei C P 等采用語義學方法利用情感詞對特征詞做剪枝處理。由于人工定義具有領域局限性,不同領域需要不同的領域專家來確定該領域的特征詞,且移植性較差。
發明內容
基于上述問題,本發明目的在于提供一種基于大數據觀點挖掘的產品特征提取方法,以幫助生產商和服務商有針對性地改進產品性能和指導用戶對產品的各個性能有比較全面的了解。
針對以上問題,提供了如下技術方案:一種基于大數據觀點挖掘的產品特征提取方法,其特征在于包括以下步驟:
步驟一:利用網絡爬蟲的頁面解析技術從網站抓取產品的產品信息和客戶評論得到產品語料,并對產品語料搭建產品信息-整體評論-細節評論的三層模型;
步驟二:對上述三層模型中的產品語料均進行預處理,得到有效的數據集合;
步驟三:對預處理后的三層模型分別進行產品特征的提取得到各層的顯式特征;
步驟四:將所有的顯式特征進行歸納構成該產品的顯式特征集。
本發明進一步設置為,所述三層模型種的第一層為產品信息層,主要指的是產品標題和產品屬性; 第二層為整體評論層,即綜述產品的優缺點; 第三層為細節評論層,詳細闡述對該產品的具體看法。
本發明進一步設置為,所述步驟二中的預處理包括:
(1)分句:對文本文檔分句處理;
(2)詞性標注:識別句子中各詞的詞性,縮小特征項候選集的范圍;
(3)停用詞:三層模型中,上一層提取出來的特征詞將作為下一層的停用詞;
(4)詞根還原或詞綴修剪:主要是把同一單詞的不同形式還原成標準形式。
本發明進一步設置為,所述步驟三中對產品信息層的產品特征提取方法為:
(1)所述產品標題包括產品名稱和產品特色,產品名稱部分不對其提取,并將產品名稱的詞作為停用詞加入到停用詞詞表中;產品特色部分提取詞性為名詞的詞;
(2)提取產品屬性短句中詞性為名詞的詞;
本發明進一步設置為,所述步驟三中對整體評論層的產品特征提取采用FP 增長算法獲得頻繁項集作為特征候選集,然后對特征候選集內的頻繁項集進行剪枝即可得到該層的顯式特征。
本發明進一步設置為,所述頻繁項集的剪枝采用兩種方式:緊密度剪枝和冗余度剪枝,所述緊密度剪枝指的是去除在特征候選集中無意義的頻繁項集,所述冗余度剪枝指的是去除特征候選集中無法完整表述產品特征的頻繁項集。
本發明進一步設置為,所述所述步驟三中對細節評論層的產品特征提取具體為:前兩層的產品特征作為此層的停用詞,采用句法分析自動分析出句子的語法結構和詞與詞之間支配關系,停用詞僅作為依存分析提取的詞篩選條件,如果不是停用詞將加入事務數據庫D中,然后再對事務數據庫D提取頻繁項集及對其剪枝處理。
本發明的有益效果:本發明采用自動提取方式,根據產品呈現在網絡上的方式和特點,搭建了產品信息-整體評論-細節評論3 層模型提取產品特征,該模型針對不同層的層次特點,采用了不同的提取方法,此外,該模型將上層的特征詞定義為下層的停用詞以及在第三層中加入依存關系,成功地實現了對特征項降維的目的,從而提高特征提取的效率。
附圖說明
圖1為本發明基于大數據觀點挖掘的產品特征提取方法的流程示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于溫州市鹿城區中津先進科技研究院,未經溫州市鹿城區中津先進科技研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710395967.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





