[發明專利]一種客服對話語料聚類方法、系統、設備及存儲介質在審
| 申請號: | 202011039075.2 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112148880A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 鄒倩霞 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 鄧應山 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 客服 對話 語料 方法 系統 設備 存儲 介質 | ||
本發明提供一種客服對話語料聚類方法、系統、設備及存儲介質,通過獲取待聚類語料的語料數目;根據所述語料數目,確定多個聚類數目;根據所述多個聚類數目,得到每個聚類數目對應的聚類簇;對所述每個聚類數目對應的聚類簇進行單獨聚類,得到所述每個聚類數目對應的最優聚類簇;根據所述最優聚類簇確定最優聚類數目以及最優聚類數目對應的聚類簇;輸出所述最優聚類數目對應的聚類簇的特征信息,根據所述特征信息得到所述語料信息聚類結果。很好的解決了在使用聚類算法時,需要人工確定聚類數目的問題。尤其是在語料量大,簇類數目大的情況下,更加準確地確定聚類數目,使得語料聚類結果更加準確。
技術領域
本發明實施例涉及人工智能領域,尤其涉及一種客服對話語料聚類方法、系統、設備及存儲介質。
背景技術
語料聚類分析是指大量信息中獲取有價值的熱點信息,為企業制定產品計劃、營銷策略和確定服務重心等提供參考依據。在自然語言處理技術的應用中,我們經常會需要用到無監督的聚類算法進行語料聚類分析。在聚類算法中,k均值聚類算法是比較經典好用的算法,但是k均值聚類算法有個問題,需要指定聚類數目才能有比較好的聚類效果,但是在很多實際應用場景,用戶通常是根據語料信息的數目選擇聚類數目,但是,語料信息聚類數目較多時,聚類數目不好確定,而聚類數據估計不準確會導致最終的聚類結果不準確。
發明內容
有鑒于此,本發明實施例提供了一種客服對話語料聚類方法、系統、計算機設備及計算機可讀存儲介質,用于解決聚類數目不好確定導致聚類結果不準確的問題。
本發明實施例是通過下述技術方案來解決上述技術問題:
一種客服對話語料聚類方法,包括:
獲取待聚類語料的語料數目;
根據所述語料數目,確定多個聚類數目;
根據所述多個聚類數目,得到每個聚類數目對應的聚類簇;
對所述每個聚類數目對應的聚類簇進行單獨聚類,得到所述每個聚類數目對應的最優聚類簇;
根據所述最優聚類簇確定最優聚類數目;
輸出所述最優聚類數目對應的聚類簇的特征信息,根據所述特征信息得到所述語料信息聚類結果。
進一步地,所述根據所述語料數目,確定多個聚類數目包括:
根據預設的聚類數目計算規則,確定聚類數目的范圍;
根據所述聚類數目的范圍,確定所述聚類數目的步長;
根據所述聚類數目的范圍以及所述聚類聚類數目的步長,確定多個聚類數目。
進一步地,所述根據所述多個聚類數目,得到每個聚類數目對應的聚類簇包括:
根據所述多個聚類數目,將所述待聚類語料分成與每個聚類數目對應的多個待聚類簇;
對所述多個待聚類簇中的待聚類語料進行處理,得到語料特征向量;
對所述語料特征向量進行聚類計算,得到所述每個聚類數目對應的多個聚類簇。
進一步地,所述對所述每個聚類數目對應的聚類簇進行單獨聚類,得到所述每個聚類數目對應的最優聚類簇包括:
計算每個聚類簇里的語料特征向量的均方差;
將均方差超過預設閾值的聚類簇進行重新聚類以及
將均方差不超過預設閾值的聚類簇作為每個聚類數目對應的最優聚類簇。
進一步地,所述根據所述最優聚類簇確定最優聚類數目包括:
計算所述每個聚類數目對應的最優聚類簇的輪廓系數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011039075.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于邏輯回歸的實時識別異常關注的方法及系統
- 下一篇:一種新型底盤的鍋爐





