[發明專利]基于LDA模型的供電服務客戶訴求識別方法在審
| 申請號: | 201810938775.1 | 申請日: | 2018-08-17 |
| 公開(公告)號: | CN109389418A | 公開(公告)日: | 2019-02-26 |
| 發明(設計)人: | 卜曉陽;王宗偉;金鵬;趙郭燚;楊菁;劉鯤鵬;宮立華;朱龍珠 | 申請(專利權)人: | 國家電網有限公司客戶服務中心 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06Q50/06;G06F17/27;G06K9/62 |
| 代理公司: | 天津佳盟知識產權代理有限公司 12002 | 代理人: | 李益書 |
| 地址: | 300000 天*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 性能參數 文本 客戶 測試樣本 供電服務 訓練樣本 樣本 文本預處理 模式識別 隨機選擇 文本分詞 文本分類 文本數據 主題模型 主題生成 識別率 客服 自動化 量化 測試 挖掘 應用 | ||
1.一種基于LDA模型的供電服務客戶訴求識別方法,其特征在于,包括如下過程:
步驟1:文本預處理:將工單中的文本進行文本分詞及文本量化,主要對文本長內容按照一定的規則進行切分;
步驟2:LDA主題生成:在全量樣本中隨機選擇樣本作為訓練樣本和測試樣本,通過對訓練樣本的訓練得到性能參數,再通過測試樣本進行測試并得出識別率較高的性能參數,運用性能參數生成識別文本對工單中包含的客戶訴求識別;
步驟3:自動化文本分類:最后根據識別的主題及對應的詞庫,結合分類算法對全量客服工單實現自動化的分類。
2.根據權利要求1所述一種基于LDA模型的供電服務客戶訴求識別方法,其特征在于,所述步驟2具體過程為:
將文檔集中每篇文檔的主題以概率分布的形式給出,即一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”,一篇文檔中,每個詞語出現的概率為:
矩陣表示為:
其中:
“文檔-詞語”:矩陣表示每個文檔中每個單詞的詞頻,即出現的概率;
“主題-詞語”:矩陣表示每個主題中每個單詞的出現概率;
“文檔-主題”:矩陣表示每個文檔中每個主題出現的概率;
先選定一個主題向量θ,確定每個主題被選擇的概率;然后生成每個單詞的時候,從主體分布向量θ中選擇一個主題z,按主題z的單詞概率分布生成一個單詞;
LDA的聯合概率為
其中:
θ是主題向量,向量的每一列表示每個主題在文檔中出現的概率,該向量為非負的歸一化向量;
p(θ):θ的分布,具體為Dirichiket分布;
N:要生成的文檔的單詞個數;
wn:生成的第n個單詞w;
zn:選擇的主題;
p(z|θ):給定θ時主題z的概率分布;
p(w|z):給定主題z時單詞w的分布。
3.根據權利要求1或2所述一種基于LDA模型的供電服務客戶訴求識別方法,其特征在于,所述步驟3中的分類算法為SVM分類算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司客戶服務中心,未經國家電網有限公司客戶服務中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810938775.1/1.html,轉載請聲明來源鉆瓜專利網。





