[發明專利]一種基于膠囊網絡的供電服務客戶訴求文本分類方法有效
| 申請號: | 202011332961.4 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112131391B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 楊志新;周宇;王成現;潘留興;洪昕;丁淙 | 申請(專利權)人: | 江蘇電力信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F40/289;G06N3/04 |
| 代理公司: | 南京匯盛專利商標事務所(普通合伙) 32238 | 代理人: | 陳揚 |
| 地址: | 210024 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 膠囊 網絡 供電 服務 客戶 訴求 文本 分類 方法 | ||
1.一種基于膠囊網絡的供電服務客戶訴求文本分類方法,其特征在于包括以下步驟:
1)供電服務客戶訴求文本預處理:首先獲取訴求文本,并添加文本類別標簽,刪除停用并進行分詞;
2)供電服務客戶訴求文本詞向量生成:將預處理過后的每行訴求文本輸入到bert預訓練模型中,解決一詞多義的問題;
3)基于字向量的編碼與依賴關系獲取:采用基于字的更細粒度的訴求文本編碼方式,采用N-garm卷積操作獲取訴求文本中字與字之間的相互依賴關系;
4)基于字與詞向量的訴求文本特征融合:將基于字和基于詞的訴求文本特征向量進行融合,得到融合向量;
5)獲得詞向量間的相互依賴關系:采用自注意力機制獲得每個訴求文本單詞間的相互依賴關系;
6)供電服務客戶訴求文本膠囊聚合:采用EM-Routing動態路由算法將單詞膠囊聚合成訴求文本膠囊,獲得詞間的語義信息關系;
7)計算損失值:采用間隔損失函數計算訴求文本正類與負類的損失值;
步驟2)中bert預訓練模型過程為:將預處理過后的每行供電服務客戶訴求文本輸入到bert預訓練模型中;首先獲得基于語義的動態詞向量表示第i個單詞對應的維度為D1的向量,wd表示每行供電客戶訴求文本中第d個單詞,L1表示每行供電服務客戶訴求文本中的單詞個數;
步驟3)中基于字向量的編碼方法為:設每行供電客戶訴求文本中的字集合其中cs表示每行供電客戶訴求文本中第s個字,將這些字映射到高維空間,得到字向量其中eo表示第o個單詞對應的維度為D2的字向量,L2表示每行供電客戶訴求文本中字的個數;
步驟3)中字與字之間的依賴關系獲取,具體如下:
3.1生成短語特征:在句子中,因為每個字之間是相對獨立的,因此,首先采用N-garm卷積操作獲取供電客戶訴求文本中字之間的相互依賴關系即客戶訴求文本的局部特征,生成短語特征;假設Xi:j表示詞向量xi,xi+1,…,xj之間的拼接,字卷積過程為:其中WEi表示權重矩陣,bi表示偏置項,K表示卷積核的大小,表示生成的局部短語特征,D3表示生成的短語個數,f表示ReLU非線性激活函數,在句子的不同位置采用卷積操作,生成的短語特征為zm表示第m個特征短語;
3.2獲得短語特征的語義特征:通過最大池化操作獲取重要的語義特征,池化過程為:其中表示第m個卷積核提取的特征經過最大池化操作得到的特征值;
3.3特征值拼接:將得到的特征值進行拼接,獲得基于字向量生成的訴求文本特征向量表示基于字的供電客戶訴求文本特征向量。
2.根據權利要求1所述的基于膠囊網絡的供電服務客戶訴求文本分類方法,其特征在于:步驟1)中訴求文本預處理過程為:先將所有客戶訴求內容按文本形式分為舉報、建議、表揚、投訴、查詢、報修、以往業務、反映類別,一行文本代表一個客戶訴求文本并添加文本類別標簽,刪除除了字母、數字和漢字以外的所有符號和停用詞,使用jieba分詞工具對每行的訴求文本進行分詞。
3.根據權利要求1所述的一種基于膠囊網絡的供電服務客戶訴求文本分類方法,其特征在于:步驟4)中基于字與詞向量的訴求文本特征融合方法為:將基于字和基于詞的供電客戶訴求文本特征向量進行融合,得到融合向量gi,表示第i個單詞對應的邏輯向量表示,則xi=MLP(xi),
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇電力信息技術有限公司,未經江蘇電力信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011332961.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可控硅結構及其制造方法
- 下一篇:驗證設計的編譯方法、電子設備及存儲介質





