[發明專利]提取工單文本主題的方法及裝置在審
| 申請號: | 202011296432.3 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112270191A | 公開(公告)日: | 2021-01-26 |
| 發明(設計)人: | 徐蕙;嚴嘉慧;及洪泉;張祿;馬龍飛;張寶群;李香龍;陸斯悅;王培祎 | 申請(專利權)人: | 國網北京市電力公司;國家電網有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/216;G06K9/62 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 曾紅芳 |
| 地址: | 100031 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提取 文本 主題 方法 裝置 | ||
1.一種提取工單文本主題的方法,其特征在于,包括:
獲取工單的文本數據;
根據第一預定聚類算法對所述文本數據對應的各個文本進行聚類,得到多個文本集合,其中,不同的集合對應不同的類型;
對于每個文本集合,根據第二預定聚類算法對所述文本集合中所有文本進行主題信息提取,得到所述文本集合的主題詞。
2.根據權利要求1所述的方法,其特征在于,
所述第一預定聚類算法包括:K均值K-Means聚類算法;
所述第二預定聚類算法包括:具有噪聲的基于密度DBSCAN的聚類算法。
3.根據權利要求1所述的方法,其特征在于,根據第一預定聚類算法對所述文本數據對應的各個文本進行聚類之前,包括:
對所述文本數據進行分詞處理,得到詞組序列;
對所述詞組序列中各個詞組進行詞性標注,得到各個詞性對應的目標詞組,所述詞性包括:名詞、動詞以及副詞;
確定所述目標詞組出現的頻率,根據所述頻率確定關鍵詞組;
基于所述關鍵詞組構建關鍵詞庫。
4.根據權利要求3所述的方法,其特征在于,根據所述頻率確定關鍵詞組,包括:
根據所述頻率確定所述目標詞組的信息熵,其中,所述信息熵用于衡量信息量的大小;將所述信息熵大于第一閾值的目標詞組作為關鍵詞組。
5.根據權利要求1所述的方法,其特征在于,在根據第一預定聚類算法對所述文本數據對應的各個文本進行聚類之前,所述方法還包括:
對所述文本數據進行去噪處理,所述去噪處理的方式,至少包括:去除標點符號、數字;將英文字母轉化為小寫、提取英文單詞的詞根。
6.根據權利要求1所述的方法,其特征在于,當所述主題詞有多個時,在得到所述文本集合的主題詞之后,所述方法還包括:
確定所述文本集合的多個主題詞對應的多個隸屬度;
確定所述多個隸屬度中大于第二閾值的目標隸屬度;
將所述目標隸屬度對應的主題詞作為目標主題詞,將所述目標主題詞組成的語句作為所述文本集合對應的工單主題。
7.根據權利要求1所述的方法,其特征在于,所述工單的文本數據,包括以下至少之一:電采暖業務投訴數據、電采暖業務咨詢數據。
8.根據權利要求7所述的方法,其特征在于,在根據第二預定聚類算法對所述文本集合中所有文本進行主題信息提取,得到所述文本集合的主題詞之后,所述方法還包括:
根據所述文本集合對應的主題詞生成風險主題庫;
基于該風險主題庫確定所述主題詞的頻率,將所述主題詞中頻率大于第三閾值的主題詞作為用戶的投訴熱點和/或咨詢熱點。
9.一種提取工單文本主題的裝置,其特征在于,包括:
獲取模塊,用于獲取工單的文本數據;
聚類模塊,用于根據第一預定聚類算法對所述文本數據對應的各個文本進行聚類,得到多個文本集合,其中,不同的集合對應不同的類型;
提取模塊,用于對于每個文本集合,根據第二預定聚類算法對所述文本集合中所有文本進行主題信息提取,得到所述文本集合的主題詞。
10.一種處理器,其特征在于,所述處理器用于運行存儲在存儲器中的程序,其中,所述程序運行時執行權利要求1至8中任意一項所述提取工單文本主題的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網北京市電力公司;國家電網有限公司,未經國網北京市電力公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011296432.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車險分析方法及裝置、電子設備
- 下一篇:一種潤膚無刺激卸妝水的制備工藝





