[發明專利]文本分類方法以及裝置在審
| 申請號: | 202011361185.0 | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112328798A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 王宇;邱雪濤;佘蕭寒;王陽 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F16/33 |
| 代理公司: | 北京市中倫律師事務所 11410 | 代理人: | 楊黎峰 |
| 地址: | 201203 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 以及 裝置 | ||
本申請公開了一種文本分類方法以及裝置。具體實現方案為:方法包括從分類標簽結構體系中提取多個分類標簽,分類標簽結構體系包括多個層級結構,層級結構包括多個標簽節點,分類標簽包括從各層級結構中提取的標簽節點;計算待分類文本分別與各分類標簽對應的文本集之間的相似度,確定候選集,候選集包括多個候選標簽;利用各層級結構對應的文本集,訓練各層級結構對應的分類模型;利用各層級結構對應的分類模型,結合計算得到的相似度,預測待分類文本分別屬于各候選標簽的分數;將分數滿足預設條件的候選標簽,作為待分類文本的分類結果。有效提高了分類效率以及分類準確率,避免在分類標簽結構上逐層選擇標簽節點。
技術領域
本申請涉及機器學習領域,尤其涉及文本分類領域。
背景技術
隨著互聯網技術的快速發展,信息量呈幾何級數的增長,如何高效地從大量信息中找到用戶感興趣的信息,成為亟待解決的問題。目前,按照主題層次結構對大量信息進行分析,能夠更快的幫助用戶找到所需的信息。以企業客服部門為例,客服坐席人員在服務完用戶后,普遍需要針對客服對話增加分類標簽,即在客服坐席系統集成一個樹形結構的選擇功能,坐席人員需針對具體的對話內容在復雜的樹形結構中逐層挑選合適的分類標簽。但是,隨著公司業務的快速發展,標簽類別會不斷膨脹,導致業務人員將新的業務條目(例如,客服對話文本)難以歸類到合適的分類標簽上。
目前,通常利用人工為業務條目選擇適合的分類標簽:針對具體的業務場景開發一套樹形結構的分類模型,用戶在樹形結構分類模型上逐層選擇對應的業務標簽,直至葉子節點或者采用多級聯動下拉框的分類模型,進行逐級選擇。然而,這種方式的效率非常低,而且難以保證準確率。此外,隨著公司業務的不斷發展,業務標簽體系也會不斷更新,需要針對新業務來掌握不同分類標簽的區分規則,導致分類成本高昂。
發明內容
本申請實施例提供一種文本分類方法以及裝置,以解決相關技術存在的問題,技術方案如下:
第一方面,本申請實施例提供了一種文本分類方法,包括:
從分類標簽結構體系中提取多個分類標簽,分類標簽結構體系包括多個層級結構,層級結構包括多個標簽節點,分類標簽包括從各層級結構中提取的標簽節點;
計算待分類文本分別與各分類標簽對應的文本集之間的相似度,確定候選集,候選集包括多個候選標簽;
利用各層級結構對應的文本集,訓練各層級結構對應的分類模型;
利用各層級結構對應的分類模型,結合計算得到的相似度,預測待分類文本分別屬于各候選標簽的分數;
將分數滿足預設條件的候選標簽,作為待分類文本的分類結果。
在一種實施方式中,計算待分類文本分別與各分類標簽對應的文本集之間的相似度,確定候選集,包括:
針對分類標簽cl,根據分類標簽cl對應的文本集構建對應的特征向量Dl,Dl=(k1,w1;k2,w2;…;kn,wn),其中,kn為分類標簽cl對應的文本集中的特征詞,wn為特征詞kn在分類標簽cl中的權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011361185.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種并聯系統同步電路
- 下一篇:一種單偶氮黃色有機顏料及其制備方法





