[發明專利]一種基于膠囊網絡的供電服務客戶訴求文本分類方法有效
| 申請號: | 202011332961.4 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112131391B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 楊志新;周宇;王成現;潘留興;洪昕;丁淙 | 申請(專利權)人: | 江蘇電力信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F40/289;G06N3/04 |
| 代理公司: | 南京匯盛專利商標事務所(普通合伙) 32238 | 代理人: | 陳揚 |
| 地址: | 210024 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 膠囊 網絡 供電 服務 客戶 訴求 文本 分類 方法 | ||
本發明公開了一種基于膠囊網絡的供電服務客戶訴求文本分類方法,包括:對供電服務客戶訴求文本預處理;生成供電服務客戶訴求文本詞向量,解決一詞多義的問題;基于字向量的編碼與依賴關系獲取,獲取字與字之間的依賴關系;基于字與詞向量的訴求文本特征融合,得到融合向量;采用自注意力機制獲得詞向量間的相互依賴關系;采用EM?Routing動態路由算法聚合訴求文本膠囊,獲得詞間的語義信息關系;最終采用間隔損失函數計算訴求文本的正類與負類的損失值。本發明提升了文本重要特征提取能力,最終提高了電力客戶服務工單中供電訴求文本分類的準確率。
技術領域
本發明涉及電力技術領域,尤其涉及一種基于膠囊網絡的供電服務客戶訴求文本分類。
背景技術
供電服務質量是衡量電力企業服務水平的重要指標,隨著互聯網、大數據、社交平臺的快速發展,提升供電服務質量勢在必行。95598作為電力企業的服務熱線,每天都會通過該熱線與電力客戶進行溝通與交流,從而形成大量的客戶訴求文本數據。而提升95598客戶服務能力最好的方法就是要清楚了解這些客戶訴求文本中所表示的客戶服務需求及問題,從而提供精確、主動、差異化的供電服務,提高客戶用電滿意度,從而提升供電企業的良好形象以及品牌價值,保障用電客戶穩固。但是供電服務中電力工單客戶訴求文本數據具有信息量大與非結構化的特點,為開展精細化的供電服務帶來挑戰。
傳統的基于卷積神經網絡(Convolutional Neural Network,CNN)的文本分類,對空間文本信息進行建模時,訓練模型參數過多,降低了模型訓練效率,而且在池化層丟失了許多有價值的文本特征信息,特征理解能力不強,而且CNN的空間位置不變性使得文本中的單詞位置信息、語法結構、語義信息不能被充分表達出來。基于膠囊網絡(CapsuleNetwork,CapsNets)的文本分類是目前比較全新的一個話題,有效地改善了CNN模型訓練的缺點。膠囊網絡能夠全局地兼顧文本的語義和語序信息,提高文本中每個單詞的特征表達能力,非常適合分析非結構化的供電服務客戶訴求文本。與長短期記憶網絡(Long Short-Term Memory,LSTM)網絡相比,能夠突破文本距離(例如長文本)的局限獲得上下文的語義和語序信息。與傳統的自注意力機制和CNN的池化操作相比,膠囊網絡采用動態路由(Expectation-Maximization Routing,EM-Routing)算法解決采用自下而上和被動的方式進行信息聚合的缺點,引導任務型文本信息主動聚類,挖掘供電服務客戶訴求文本的語序和語義信息,提高客戶訴求文本的分類準確率。
綜上,由于供電服務客戶訴求內容主要為文本形式且非結構化、信息量大,存在一詞多義的情況,因此,基于傳統神經網絡的供電服務客戶訴求文本分類方法至少存在以下3個問題:(1)CNN池化層丟失了很多有價值信息,被動地進行信息聚合,降低了特征理解能力;(2)CNN的空間關系識別能力不強,不能充分表達供電服務訴求文本中的單詞語序與語義信息、語法結構;(3)LSTM不能獲得供電服務客戶訴求長文本的上下文語義和語序信息。
發明內容
針對CNN和LSTM網絡在文本分類中特征表達能力不強、不能突破文本距離的局限獲得上下文的語義和語序信息缺陷以及供電服務客戶訴求文本數據非結構化、信息量大、一詞多義的特點,本發明的目的是提供一種基于膠囊網絡的供電服務客戶訴求文本分類方法,提升了文本重要特征提取能力,提高了95598電力客戶服務工單中供電訴求文本分類的準確率。
本發明是通過以下技術方案具體實現的:
1)供電服務客戶訴求文本預處理:主要包括對供電服務客戶訴求文本的獲取、去除停用詞和分詞處理,將95598系統中的客戶訴求內容按文本形式分為舉報、建議、表揚、投訴、查詢、報修、以往業務、反映類別,一行文本代表一個工單訴求并添加文本類別標簽,刪除除了字母、數字和漢字以外的所有符號和停用詞,使用jieba分詞工具對每行的工單訴求文本進行分詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇電力信息技術有限公司,未經江蘇電力信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011332961.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可控硅結構及其制造方法
- 下一篇:驗證設計的編譯方法、電子設備及存儲介質





