[發明專利]基于多粒度建模的半監督文本分類方法和系統有效
| 申請號: | 202011004053.2 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112214597B | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 余本功;汲浩敏;朱夢迪;王胡燕;王惠靈;張子薇;朱曉潔 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/08 |
| 代理公司: | 北京久誠知識產權代理事務所(特殊普通合伙) 11542 | 代理人: | 余罡 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 粒度 建模 監督 文本 分類 方法 系統 | ||
本發明提供一種基于多粒度建模的半監督文本分類方法和系統,涉及數據處理技術和機器學習技術領域。本發明使用多粒度的文本建模方式形成三通道的文本向量模型層,分別從字符級、詞語級、句子級三個級別對同一文本進行文本建模,再將三個級別的建模分別作為三個通道,并將三個通道的輸出輸入給三個基分類器組,在不損失樣本或者特征的情況下獲得樣本之間的分歧,取代了傳統的重采樣與隨機子空間方法;同時,九個基分類器集成為三個基分類器組的設計,集成了不同基分類器的優點,使用不同的基分類器獲取相同樣本的不同特征,獲得基分類器之間的分歧,從而有效提高了半監督文本分類方法的分類結果準確度。
技術領域
本發明涉及數據處理技術和機器學習技術領域,具體涉及一種基于多粒度建模的半監督文本分類方法和系統。
背景技術
互聯網技術的迅猛發展,使得信息傳遞越來越迅速、便捷,在信息源源不斷地產生以及交互過程中,又衍生出更多新的信息,這些信息一直是在呈指數式增長的,而在這些海量信息中往往包含了許多有價值的東西,它們不僅從側面反應了用戶的大量潛在需求,還反饋出存在于企業服務中的諸多問題。如果對這些海量用戶信息進行快速挖掘和有效提取,便可以輕松掌握用戶需求,同時改進企業服務中存在的大量問題,為用戶提供更優質的服務,搶占更廣大市場。所以,如何對文本信息進行快速挖掘以及正確分類,逐漸成為了企業研究的熱點,數據、文本分類相關技術也在不斷發展和改進中。在使用傳統的文本分類方法進行分類時,需要大量的有標注樣本進行訓練,然而,各種不同領域的文本具有專業性強、種類繁多、數量龐大等特點,對這些文本進行人工標注耗時費力,時間成本和經濟成本都很高,而半監督學習正好可以解決這一問題。
半監督學習介于有監督學習(需要大量有標注的訓練樣本)和無監督學習(準確率相對較低)兩者之間,只需要少量的有標注訓練樣本,就可以獲得較高的準確性,降低了人工標注所帶來的各種成本。目前,基于半監督學習的文本分類方法是使用諸如SVM等這些單一的分類器,然后使用重采樣和隨機子空間的方法獲取樣本分歧,再用這些樣本集訓練SVM模型獲得多個不同的SVM分類器,最后通過對訓練完的所有SVM分類器的預測結果相對多數投票策略得到最終的分類結果。
但是,這種傳統的半監督文本分類的做法,使用單一種類的分類器,以及運用重采樣和隨機子空間的方法獲取樣本分歧時,存在樣本或特征丟失的問題,對半監督分類的效果有較大的影響;另外,傳統的半監督文本分類模型主要使用單一粒度的語言模型,會存在語義不完整、無法解決一詞多義等問題,也會導致半監督文本分類效果不理想。
發明內容
(一)解決的技術問題
針對現有技術的不足,本發明提供了一種基于多粒度建模的半監督文本分類方法和系統,解決了傳統半監督分類方法中存在樣本或特征丟失,以及存在語義不完整、無法解決一詞多義的問題。
(二)技術方案
為實現以上目的,本發明通過以下技術方案予以實現:
第一方面,本發明提供一種基于多粒度建模的半監督文本分類方法,所述方法由計算機執行,包括以下步驟:
獲取有標記的文本樣本集L、未標記的文本樣本集U、待分類文本T;
構建MG-SSC模型;其中,所述MG-SSC模型包括三通道的文本向量模型層、基分類器層和集成結果層;所述三通道的文本向量模型層包括第一通道、第二通道以及第三通道,所述基分類器層包括第一基分類器組A、第二基分類器組B以及第三基分類器組C;
基于所述第一通道分別對L、U和T進行編碼得到L1、U1和T1,基于所述第二通道分別對L、U和T進行編碼得到L2、U2和T2,基于所述第三通道分別對L、U和T進行編碼得到L3、U3和T3;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011004053.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于汽車清洗的汽車零部件震蕩清洗裝置
- 下一篇:內存分配方法及相關設備





