[發明專利]文本分類方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201810283100.8 | 申請日: | 2018-04-02 |
| 公開(公告)號: | CN108509596B | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 朱汝維;游永明 | 申請(專利權)人: | 廣州市申迪計算機系統有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 黃曉慶 |
| 地址: | 510600 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種文本分類方法、裝置、計算機設備和存儲介質。方法包括:獲取待分類文本;將所述待分類文本輸入對訓練文本進行訓練得到的分類模型,獲得所述待分類文本的分類結果。對訓練文本進行訓練得到的分類模型的步驟包括:將訓練文本中標注文本輸入預設分類模型,進行監督對抗訓練,并將訓練文本中無標注文本輸入監督對抗訓練后的所述預設分類模型,進行無監督虛擬對抗訓練,獲得分類模型。分類模型的無監督虛擬對抗過程中可以利用了大量的無標注的數據作為輸入來進行虛擬對抗訓練,而不需要全部使用標注數據來充當預設分類模型訓練,可以提高訓練過程中輸入的數據量,且大大減輕對人工標注數據量的需求,降低分類模型建立的人力成本。
技術領域
本申請涉及計算機技術領域,特別是涉及一種文本分類方法、裝置、計算機設備和存儲介質。
背景技術
包括三大電信運營商在內的眾多關系到國計民生的服務平臺,提供了種類繁多的基礎業務和增值業務。一方面這些服務平臺竭力規范服務流程、優化服務質量,另一方面由于普通用戶及其需求的多樣性而導致不斷出現各種問題。運營商的客服集團最主要的職責就是解決用戶使用產品中出現的各種問題,以提高售后用戶滿意度。例如電信集團客服需要及時了解全國各地客戶投訴內容以優化整改相關業務或部門。同時及時地將客戶電話投訴工單指派到具體的處理部門去執行,這也是提高客服效率的重要方面。由于當前全國客服投訴工單總量非常大,需要大量的具有專業客服背景知識和實際業務經驗的客服人員進行手工分類。近年來,鑒于機器學習為代表的人工智能技術的蓬勃發展,人工智能在計算機視覺、語音和自然語言理解方向的研究及其產業化飛速進步。人們希望借助人工智能技術對工單進行自動標注(即分類),以節省人力和提高辦事效率。
現有的關于文本的主流機器學習分類方法是基于支持向量機(SVM)和決策樹(DT)為代表的監督學習算法。首先,模型的學習數據需要經過專業客服進行標注產生;其次,深諳當前業務的數據科學家對數據進行預處理并進行數據探索,試圖通過業務專業知識來提取出較關鍵的數據屬性且去除不重要的屬性;最后利用人工處理后的數據,算法工程師嘗試比較各種算法(SVM、DT等)在當前數據上的學習效果,再在較好的模型算法上調整其本身各種參數使得算法達到最優。傳統對工單文本的學習過程一般有如下步驟:①經驗豐富的專業客服人員對工單文本標注其標簽類別,如一個三級標簽為“互聯網類-理財類-甜橙理財”;②對其業務有相當經驗的算法工程師將文本數據進行適度清洗,例如去除文本中不重要的數字、標點符號和其他字符;再進行數據探索,試圖找出數據中較有用的特征屬性,從而形成可輸入模型進行學習的中間數據;③算法工程師同時利用預處理后的數據進行多個不同模型的試驗,根據選定的評測指標確定一個最好的模型;④算法工程師對選定的模型進行調整參數操作,使得模型對數據具有最佳學習效果。然而通過這種基于DL算法的工單分類方法需要大量人工標注數據,這大大制約了其實際的使用。
發明內容
基于此,有必要針對上述技術問題,提供一種文本分類方法、裝置、計算機設備和存儲介質。
一種文本分類方法,所述方法包括:
獲取待分類文本;
將所述待分類文本輸入對訓練文本進行訓練得到的分類模型,獲得所述待分類文本的分類結果;
對訓練文本進行訓練得到的分類模型的步驟包括:
將訓練文本中標注文本輸入預設分類模型,進行監督對抗訓練,并將訓練文本中無標注文本輸入監督對抗訓練后的所述預設分類模型,進行無監督虛擬對抗訓練,獲得分類模型。
在其中一個實施例中,所述獲取待分類文本之前,還包括:
構建分類模型;
所述構建分類模型包括:
配置預訓練模型參數,所述預訓練模型為深度神經網絡模型,所述預訓練模型包括輸入層、嵌入層、LSTM(Long Short-Term Memory,長短期記憶網絡) 層以及samplesoftmax loss層;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州市申迪計算機系統有限公司,未經廣州市申迪計算機系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810283100.8/2.html,轉載請聲明來源鉆瓜專利網。





