[發明專利]基于LDA模型的供電服務客戶訴求識別方法在審
| 申請號: | 201810938775.1 | 申請日: | 2018-08-17 |
| 公開(公告)號: | CN109389418A | 公開(公告)日: | 2019-02-26 |
| 發明(設計)人: | 卜曉陽;王宗偉;金鵬;趙郭燚;楊菁;劉鯤鵬;宮立華;朱龍珠 | 申請(專利權)人: | 國家電網有限公司客戶服務中心 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06Q50/06;G06F17/27;G06K9/62 |
| 代理公司: | 天津佳盟知識產權代理有限公司 12002 | 代理人: | 李益書 |
| 地址: | 300000 天*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 性能參數 文本 客戶 測試樣本 供電服務 訓練樣本 樣本 文本預處理 模式識別 隨機選擇 文本分詞 文本分類 文本數據 主題模型 主題生成 識別率 客服 自動化 量化 測試 挖掘 應用 | ||
本發明涉及模式識別的方法,具體涉及一種基于LDA模型的供電服務客戶訴求識別方法。識別方法包括如下過程:文本預處理:將工單中的文本進行文本分詞及文本量化,主要對文本長內容按照一定的規則進行切分;LDA主題生成:在全量樣本中隨機選擇樣本作為訓練樣本和測試樣本,通過對訓練樣本的訓練得到性能參數,再通過測試樣本進行測試并得出識別率較高的性能參數,運用性能參數生成識別文本對工單中包含的客戶訴求識別;自動化文本分類。本發明的優點在于:本方法提出利用LDA主題模型運用在全量客服工單中識別多個客戶訴求,對文本數據充分挖掘并應用到實際工作中。
技術領域:
本發明涉及模式識別的方法,具體涉及一種基于LDA模型的供電服務客戶訴求識別方法。
背景技術:
隨著互聯網+、大數據、云計算等信息技術飛速發展,大部分信息已經由紙質載體過渡到電子載體,而在這些信息中,大部分是非結構化或半結構化的文本信息。如何有效管理、挖掘、分析海量非結構化數據中蘊藏的信息,已成為大數據領域的重挑戰。在非結構化數據中,文本數據占據重要地位。對于擁有大量文本數據的企業,如何有效的利用這部分數據資源決定著企業將來的發展。在電力行業客服中心的數據中,如何對工單數據進行處理,從而精準的識別工單中客戶的訴求,甚至挖掘隱含訴求同時及時的發現新增突增訴求,這對提升服務的質量及客戶的滿意程度至關重要。
對文本數據中信息的挖掘常用的方法主要有兩種,一種是早期的空間向量模型,數據基礎是基于線性代數的幾何變化,主要通過空間向量的形式表示非結構化和半結構化的數據,將文本數據表示為數學上可分析處理的形式,但存在一個問題就是文檔特征向量具有驚人的維度,且占用內存較大,運行效率較低,如果使用此方法,需要進行合理的降維,但是由于每個文本特征向量維數不一致,一定程度上增加了數學處理的難度。另外一種是主題模型,依據的數學基礎是概率統計的分布模型,主要是對文檔內容的潛在模式的挖掘,且有良好的數學基礎和靈活的拓展性,其中基于LDA模型對文本數據的挖掘更是得到廣泛應用,此模型作為一種能夠自動確定隱含主題的個數,擁有很好的主題適應能力。
在電力客戶的工單中,每條工單的客戶訴求并不全是單一訴求,精確識別每條工單的全部訴求尤為重要;在機器學習分類的文本分類技術中,機器學習分類算法只能識別單個訴求,無法滿足一條工單含有多個訴求的情況,而主題模型中LDA模型對于文本中多個主題可以自動準確的識別,故本發明創新性的將LDA模型與工單數據進行結合,精準識別每條工單中客戶的全部訴求。
發明內容:
本發明主要基于LDA模型對供電服務客戶工單中的文本數據進行訴求識別,通過LDA模型對處理后的文本數據進行挖掘分析,識別工單中客戶全部訴求,以便準確定位各客戶的在用電方面的問題,從而使客服中心更加精確的進行服務,提升服務質量,進而提高客戶的用電滿意度。
工單中對于客戶訴求的記錄由客服人員加工轉換記錄,文本內容較長,沒有很好的簡化統一,存在同一工單有多個訴求的工單,且同一訴求的記錄方式也有所差異。
基于LDA模型的供電服務客戶訴求識別方法,包括文本預處理, LDA主題生成模型,文本自動分類。文本預處理階段分兩步,一步是文本分詞,二是文本量化;依據LDA主題生成模型的過程中,通過訓練文本的θ和p(θ),θ為主題向量機標識每列每個主題在文檔中出現的概率,p(θ)為主題向量θ的Dirichlet分布,再得出兩個控制參數α和β,α為p(θ)分布的參數,用于生成一個主題θ向量:β為各個主題對應的單詞概率分布矩陣p(w|z),通過控制參數α和β就確定了主題模型,模型生成識別文本的算法如下:(1)選定一個主題向量θ,確定每個主題被選擇的概率;(2)從主題向量θ中選擇一個主題z,按主題z的詞概率分布生成一個詞,該詞即為識別文本;對未識別的停電工單進行抽取并生成測試文本,通過人為對測試文本進行停電原因識別,對得出的控制參數α和β是否合理進行調試。由于需人為判定α和β是否合理,有一定局限性,在測試樣本中,識別的主題可以概括95%以上的工單,并對全量工單依據分類算法模型及詞庫和所有主題實現自動化文本分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司客戶服務中心,未經國家電網有限公司客戶服務中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810938775.1/2.html,轉載請聲明來源鉆瓜專利網。





