[發明專利]一種基于表征增強與融合的文本分類方法在審
| 申請號: | 202010668999.2 | 申請日: | 2020-07-13 |
| 公開(公告)號: | CN111813939A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 劉峰;陳一飛 | 申請(專利權)人: | 南京睿暉數據技術有限公司;陳一飛 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京業騰知識產權代理事務所(特殊普通合伙) 32321 | 代理人: | 繆友益 |
| 地址: | 210000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 表征 增強 融合 文本 分類 方法 | ||
本發明涉及一種基于表征增強與融合的文本分類方法,包括構建基于表征增強與融合的文本分類模型,輸入文本在基于表征增強與融合的文本分類模型內的處理步驟為:在數據表征層將輸入文本的離散文字轉換為連續特征向量,得到多重的表征向量;在表征增強層將擾動加入表征向量中,得到表征增強向量;在表征抽象層對表征增強向量進一步提取和抽象,得到抽象表征向量;在分類層對抽象表征向量進行分類,得到輸出文本標簽;在融合層綜合各個輸出文本標簽,得到最終的文本標簽。本發明能有效解決現有文本多類分類中存在的樣本數據在類別間分布不平衡、少數類別中樣本數量缺乏時正確分類困難的問題。
技術領域
本發明涉及文本分類技術領域,具體涉及一種基于表征增強與融合的文本分類方法。
背景技術
隨著大數據時代的到來,電子文本數量急劇積累,面對如此龐大的文本數據,對其維護、管理和利用都具有極大的挑戰性。利用文本分類技術,能自動的對大量復雜的文本這種非結構化數據進行分類,可以使用戶更便捷、高效的對資料進行分類歸檔。
文本分類是指計算機將載有信息的一篇文本映射到預先給定的某一類別或某幾類別主題的過程。是自然語言處理中多年來一直研究的課題,也是經典的機器學習技術,其在句法分析、語義分析、信息抽取和web搜索等領域有著重要的應用。在自然語言處理中,文本分類的核心任務是如何表示文本特征,即如何得到文本的表征。在傳統的文本分類中,常用詞袋模型等構建文本向量模型(VSM)進行文本特征表示。為了提取更加有用和獨特的特征,許多其他方法也進展起來,如LDA、PLSA和MI等。盡管許多研究者已經開發了一些更復雜的特征(如樹核等)以提取更多的上下文信息和準確的詞序,但仍然存在數據稀疏、維度災難等問題,這些問題對分類精度有很大影響。為了更好的進行文本特征的表示,隨著神經網絡及深度學習技術的發展,詞的分布表征在許多自然語言處理任務中得到了廣泛的應用。通過對詞分布的表征學習,把文本中出現的最小語義單位——詞(或者字)通過一系列變換轉化為計算機可識別可計算的稠密向量,因此表征學習的模型也稱為詞向量模型。Word2vec、GloVe、ELMo、BERT等一些列的詞向量模型應運而生,其中通過注意力機制和多頭機制獲取了上下文信息的BERT模型更是使自然語言處理的多項任務性能顯著提高。
然而,由于文本數據的復雜性在實際的文本分類應用中仍然存在很多挑戰,使即使利于基于BERT等模型的文本表征,也不能得到理想的文本分類性能。例如:最常見的問題之一是,大量文本分類任務中,數據在類別間分布的不平衡的問題。某一些類別由于存在較多的標注數據,成為多數類別;而另一些類別由于數據難以獲取或難以人工標注,只有較少或極少的標注數據,成為少數類別。這樣使數據同時具有不平衡和缺乏的問題。從不平衡數據中學習分類是一項具有挑戰性的任務。由于每個類的數據數量不均衡,它會對分類器的性能造成嚴重的不利影響。用不平衡數據訓練的分類器傾向于預測屬于大多數的類。因此,它忽略了少數類別的影響,將其與多數類別混為一談。
為了解決分類時的數據分布不平衡的問題,有面向數據和面向算法的解決方式。在算法層面,成本敏感的技術主要通過調整各種類的成本來抵消類的不平衡。成本敏感的技術在沒有改變原始數據數量的情況下,修改原有樣本實例的成本,這樣做計算代價非常昂貴,因此在面對實際問題時,并不切實可行。另外,數據變換是面向數據的一種常用方法,直接對數據進行修改,包括了欠采樣方法、過采樣方法和混合抽樣方法,用于平衡類分布,是一種有效的處理非平衡分類方法。但是,這個簡單的修改并不能解決一個潛在的關鍵問題:并不能真正學習到給定的不平衡數據的分布。幸運的是,深度學習為學習數據分布的隱式表達式提供了一種有效和健壯的方法。尤其是利用對抗學習,可以學習到數據近似真實的分布。
盡管基于對抗學習的方法可以用生成的數據來補充少數類,從而提高分類的性能,但是它們主要關注于圖像數據的增強,如對圖像增加噪聲的低分辨率合成。但是這并不適用于文本數據的增強,因為文本是離散型數據,且加入一個較小的噪聲就會影響整個句子的語義信息,故文本數據增強存在一定的難度。因此,亟需設計一種新的技術方案,以綜合解決現有技術中存在的問題。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京睿暉數據技術有限公司;陳一飛,未經南京睿暉數據技術有限公司;陳一飛許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010668999.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效反應釜
- 下一篇:面向智能制造的云制造資源的動態共享與智能分配方法





