[發明專利]中文評論無監督學習的聚類方法、計算機程序產品以及服務器系統在審
| 申請號: | 201910163711.3 | 申請日: | 2019-03-05 |
| 公開(公告)號: | CN109871447A | 公開(公告)日: | 2019-06-11 |
| 發明(設計)人: | 楊帆;于巨明;尚應 | 申請(專利權)人: | 南京甄視智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京德銘知識產權代理事務所(普通合伙) 32362 | 代理人: | 婁嘉寧 |
| 地址: | 211000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 標簽 無監督學習 評論 計算機程序產品 服務器系統 聚類結果 語料庫 預處理 降序排列 聚類方式 聚類運算 評論內容 評論數據 實際內容 標簽庫 詞向量 情感詞 無監督 中文 對消 分詞 去除 過濾 提煉 輸出 統計 學習 | ||
1.一種中文評論無監督學習的聚類方法,其特征在于,包括以下步驟:
步驟1、獲取針對一產品或者服務的評論數據,整理得到語料庫,所述語料庫中包含按順序存儲的評論內容信息;
步驟2、對語料庫中的評論內容信息進行預處理,并進行分詞和詞向量訓練,得到針對分詞結果的對應詞向量;
步驟3、基于自然語言的標簽提取規則提取候選標簽,形成候選標簽庫;
步驟4、對所述候選標簽庫進行消重處理,去除重復的候選標簽;
步驟5、對消重后的候選標簽進行情感詞過濾,去除無效標簽;
步驟6、對去除無效標簽后的候選標進行簽基于DBSCAN的聚類運算,得到所有候選標簽的量級,對聚類結果按照數量進行降序排列;
步驟7、統計每個聚類量級,輸出TopN。
2.根據權利要求1所述的中文評論無監督學習的聚類方法,其特征在于,所述步驟2中的預處理包括去除停用詞。
3.根據權利要求1所述的中文評論無監督學習的聚類方法,其特征在于,所述步驟2中,采用hanLP分詞,并對分詞結果基于word2vec訓練詞向量。
4.根據權利要求1所述的中文評論無監督學習的聚類方法,其特征在于,所述步驟3中使用的標簽抽簽規則包含:名詞主語+狀語,名詞主語+狀語+狀語,狀語+狀語,狀語+形容詞,狀語5類抽取規則,獲取候選標簽。
5.根據權利要求1所述的中文評論無監督學習的聚類方法,其特征在于,所述步驟4中,對候選標簽庫中的候選標簽,基于simhash算法進行消重,去除內容實質上相同的標簽。
6.根據權利要求1所述的中文評論無監督學習的聚類方法,其特征在于,所述步驟5中進行情感詞過濾具體包含:
步驟5-1、設定組合的情感詞庫;
步驟5-2、將情感詞庫加載到一集合中,從第一條候選標簽開始,將候選標簽通過jieba分詞算法拆分成多個單詞,將所有的拆分完的單詞逐個與情感詞庫里面的情感詞做等值匹配,如果匹配成功則該條候選標簽標記含有情感詞,否則標記不包含情感詞;
步驟5-3、判定如果本條候選標簽包含情感詞,則將拆分成的單詞重新組合成候選標簽,并且將本條候選標簽的所有分詞,通過步驟1的詞向量庫查詢獲取詞向量,計算出詞向量的平均值;如果不包含情感詞,則直接過濾;
步驟5-4、按照上述步驟5-2、5-3進行每一條候選標簽的情感詞過濾處理,處理完成后,生成過濾完的候選標簽庫,候選標簽庫數據結構包括候選標簽字符串以及候選標簽字符串向量。
7.根據權利要求6所述的中文評論無監督學習的聚類方法,其特征在于,所述步驟6中的聚類運算包括以下步驟:
步驟6-1、加載候選標簽,獲取步驟5-4的候選標簽庫;
步驟6-2、依據候選標簽輸入到DBSCAN聚類算法進行聚類運算,從第一條候選標簽開始,選取候選標簽和候選標簽庫中其他所有的候選標簽按照余弦相似度算法計算相似度,將相似度值和預先設定的相似性閥值做比對,確定相似度大于閥值的標簽集合;
步驟6-3、判定如果標簽集合大于定義的設定的最小鄰居數,則統計該標簽集合中標簽的個數作為本標簽的量級,否則結束;
步驟6-4、按照上述步驟6-2、6-3的處理依次處理候選標簽庫中所有的候選標簽,直到所有的候選標簽聚類結束;
步驟6-5、按照得到的所有標簽和標簽的量級對聚類結果按數量進行降序排列。
8.一種計算機程序產品,包括編碼有指令的一個或多個非暫態機器可讀介質,所述指令在由一個或多個處理器執行時使得過程被執行,所述過程用于執行對獲取的中文評論數據的無監督聚類處理,所述過程包括執行前述權利要求1-7中任意一項所述方法所包含的流程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京甄視智能科技有限公司,未經南京甄視智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910163711.3/1.html,轉載請聲明來源鉆瓜專利網。





