[發明專利]增量意圖聚類方法、裝置、設備及存儲介質有效
| 申請號: | 202011531561.6 | 申請日: | 2020-12-22 |
| 公開(公告)號: | CN112527969B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 黃健;李鋒;楊洋;汪赟;潘仰耀;張琛;萬化 | 申請(專利權)人: | 上海浦東發展銀行股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 劉飛;賈磊 |
| 地址: | 200002 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 增量 意圖 方法 裝置 設備 存儲 介質 | ||
本說明書實施例提供了一種增量意圖聚類方法、裝置、設備及存儲介質,該方法包括:獲取增量對話語料;從所述增量對話語料中提取文本關鍵詞;將所述文本關鍵詞轉換為第一詞向量,以作為所述增量對話語料的向量化表示;確定所述第一詞向量與歷史意圖類別集合中各第二詞向量的相似度;所述各第二詞向量為對應歷史意圖類別的文本關鍵詞的向量表示;根據所述相似度對所述文本關鍵詞進行意圖聚類。本說明書實施例可以提高識別用戶的增量意圖的及時性。
技術領域
本說明書涉及自然語言處理技術領域,尤其是涉及一種增量意圖聚類方法、裝置、設備及存儲介質。
背景技術
短文本分類(Short Text Classification)是自然語言處理(Natural LanguageProcessing,NLP)中關于自然語言理解(Natural Language Understanding,NLU)的一個基礎任務。其任務目的是為短文本語料分配預先定義的一組分類標簽集合。短文本分類技術是對話系統、信息檢索、問答系統等多種NLP技術中必不可少的重要組成部分。
以金融領域為例,隨著金融業快速發展,商業銀行為客戶提供豐富的標準化金融產品和服務(例如:存款、住房貸款、消費貸款、銀企直聯和第三方存管憑證等)。海量客戶在使用這些金融產品過程中,往往會產生大量的問題。通常,商業銀行的客戶服務系統每天會收到大量的客戶電話。目前,金融科技在商業銀行逐步發展,智能客服系統會將客戶的語音轉為文本(Audio Speech Recognition,ASR),再利用NLP技術對客戶的意圖進行分類,然后,針對不同的意圖,客服系統為用戶提供不同的服務和反饋。
目前,在實際應用場景下,現有技術往往是統計歷史用戶咨詢中使用頻率最高一些用戶咨詢(例如前100個使用頻率最高的query等),并據此訓練意圖分類器,以用于線上意圖分類(即對于任意的用戶咨詢,都可以按照意圖分類器為其匹配出一種意圖)。然而,隨著業務的發展變化及用戶咨詢的不斷累積,原先的意圖分類器可能不再滿足實際需求。在此情況下,一般通過客服人員和業務人員對增量的用戶意圖進行定期(例如每周一次、每月一次等)匯總和提煉,以挖掘出使用頻率較高的新意圖類別。顯然,這種人工定期挖掘使用頻率較高的新意圖類別的方式具有一定的滯后性。因此,如何及時識別用戶的增量意圖已成為目前亟待解決的技術問題。
發明內容
本說明書實施例的目的在于提供一種增量意圖聚類方法、裝置、設備及存儲介質,以提高識別用戶的增量意圖的及時性。
為達到上述目的,一方面,本說明書實施例提供了一種增量意圖聚類方法,包括:
獲取增量對話語料;
從所述增量對話語料中提取文本關鍵詞;
將所述文本關鍵詞轉換為第一詞向量,以作為所述增量對話語料的向量化表示;
確定所述第一詞向量與歷史意圖類別集合中各第二詞向量的相似度;所述各第二詞向量為對應歷史意圖類別的文本關鍵詞的向量表示;
根據所述相似度對所述文本關鍵詞進行意圖聚類。
本說明書一個實施例中,所述歷史意圖類別集合通過以下方式獲得:
從歷史對話語料中提取業務操作動詞集合和業務名詞集合;
根據所述業務操作動詞集合和所述業務名詞集合構建領域詞典;
根據所述領域詞典對所述歷史對話語料進行分詞,獲得分詞結果;
用所述分詞結果訓練詞向量模型,獲得所述歷史對話語料的領域詞向量集合;
獲取所述歷史對話語料中各次對話語料的文本關鍵詞;
根據所述領域詞向量集合將所述各次對話語料的文本關鍵詞進行向量化,獲得向量化對話語料集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海浦東發展銀行股份有限公司,未經上海浦東發展銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011531561.6/2.html,轉載請聲明來源鉆瓜專利網。





