[發明專利]中文評論無監督學習的聚類方法、計算機程序產品以及服務器系統在審
| 申請號: | 201910163711.3 | 申請日: | 2019-03-05 |
| 公開(公告)號: | CN109871447A | 公開(公告)日: | 2019-06-11 |
| 發明(設計)人: | 楊帆;于巨明;尚應 | 申請(專利權)人: | 南京甄視智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京德銘知識產權代理事務所(普通合伙) 32362 | 代理人: | 婁嘉寧 |
| 地址: | 211000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 標簽 無監督學習 評論 計算機程序產品 服務器系統 聚類結果 語料庫 預處理 降序排列 聚類方式 聚類運算 評論內容 評論數據 實際內容 標簽庫 詞向量 情感詞 無監督 中文 對消 分詞 去除 過濾 提煉 輸出 統計 學習 | ||
本發明提供一種中文評論無監督學習的聚類方法、計算機程序產品以及服務器系統,其中聚類方法包括:獲取評論數據,整理得到語料庫;對語料庫中的評論內容信息進行預處理,并進行分詞和詞向量訓練;提取候選標簽;對候選標簽庫進行消重處理;對消重后的候選標簽進行情感詞過濾;對去除無效標簽后的候選標進行簽基于DBSCAN的聚類運算,得到所有候選標簽的量級,對聚類結果按照數量進行降序排列;最終統計每個聚類量級,輸出TopN。本發明提出基于無監督學習的聚類方式,克服以往標簽聚類方法難以客觀表達評論結果的問題,本發明能夠根據評論和標簽的實際內容進行自主、無監督的提煉和學習,提供更加客觀和反應真實評論結果的聚類結果。
技術領域
本發明涉及數據挖掘與處理技術領域,具體而言涉及一種中文評論無監督學習的聚類方法、計算機程序產品以及服務器系統。
背景技術
目前電商平臺或者論壇上對商品或者服務的評價中,往往通過技術手段進行標簽的抽取和展示,以供潛在的用戶直接獲得產品或者服務的最直接的評價。現有生成這些標簽的方式中主要有兩種,其中一種是抽取,即基于統計原理抽取出現頻率最高的詞匯或者短語,形成標簽,并按照頻率的高低進行順序排列,這一方式在標注時候會產生比較多的噪聲,而且僅基于統計原理的抽取,往往得到千奇百怪的結果(標簽),不能真實反映評論或者產品的特點;另一種是基于預先自定義的標簽的生成,然后再評論信息中進行查找累加,如果出現一次則累加1,查詢完所有的評論則會得到自定義標簽的累加結果,取前N個進行排列得到最終標注結果,這一方式標注的時候往往需要比較的勞動,效率低,而且只能針對自定義的標簽進行累加,針對新的評論或者關鍵詞往往沒有效果。
結合上述兩種方式,都是基于有監督方式的聚類,其特點是難以反應真實情況。
發明內容
本發明的目的旨在針對現有技術的有監督聚類方式存在的問題,提出一種中文評論無監督學習的聚類方法、計算機程序產品以及服務器系統,通過無監督聚類得到的標簽,能夠自主更新和學習,并且更深層次的反應評論以及評論對象的真實情況,使得聚類結果更客觀。
為實現上述目的,本發明所采用的技術方案如下:
一種中文評論無監督學習的聚類方法,包括以下步驟:
步驟1、獲取針對一產品或者服務的評論數據,整理得到語料庫,所述語料庫中包含按順序存儲的評論內容信息;
步驟2、對語料庫中的評論內容信息進行預處理,并進行分詞和詞向量訓練,得到針對分詞結果的對應詞向量;
步驟3、基于自然語言的標簽提取規則提取候選標簽,形成候選標簽庫;
步驟4、對所述候選標簽庫進行消重處理,去除重復的候選標簽;
步驟5、對消重后的候選標簽進行情感詞過濾,去除無效標簽;
步驟6、對去除無效標簽后的候選標進行簽基于DBSCAN的聚類運算,得到所有候選標簽的量級,對聚類結果按照數量進行降序排列;
步驟7、統計每個聚類量級,輸出TopN。
根據本發明的公開的另一方面還提出一種計算機程序產品,包括編碼有指令的一個或多個非暫態機器可讀介質,所述指令在由一個或多個處理器執行時使得過程被執行,所述過程用于執行對獲取的中文評論數據的無監督聚類處理,所述過程包括執行前述流程。
根據本發明的公開的第三方面還提出一種服務器系統,包括:
接口,被設置用于獲得針對至少一產品或者服務的評論數據;
至少一個處理器;
至少一個存儲器,被設置用于存儲可被所述至少一個處理器執行的編碼的指令,所述指令在由所述至少一個處理器執行時用以實現對獲取的評論數據的無監督聚類處理過程,所述過程包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京甄視智能科技有限公司,未經南京甄視智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910163711.3/2.html,轉載請聲明來源鉆瓜專利網。





