[發明專利]一種基于組合-卷積神經網絡的中文新聞長文本分類方法有效
| 申請號: | 202110419616.2 | 申請日: | 2021-04-19 |
| 公開(公告)號: | CN112989052B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 張昱;劉開峰;高凱龍;王艷歌;蘇仡琳;李繼濤 | 申請(專利權)人: | 北京建筑大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F40/237;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 蘇州攜智匯佳專利代理事務所(普通合伙) 32278 | 代理人: | 錢偉 |
| 地址: | 100044*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 組合 卷積 神經網絡 中文 新聞 文本 分類 方法 | ||
本發明公開一種基于組合?卷積神經網絡的中文新聞文本分類方法,包括:S1、獲取中文新聞文本數據集,并對所述數據集進行預處理;S2、基于預處理后的數據集構建詞匯表,并通過所述詞匯表對預處理后的數據集中的中文新聞文本進行標準化處理,得到中文新聞文本的文本特征表示;S3、構建組合?卷積神經網絡模型,基于標準化處理后的數據集對所述組合?卷積神經網絡模型進行訓練,并通過訓練好的組合?卷積神經網絡模型完成中文新聞文本分類。本發明能夠實現對中文新聞文本精準、有效地分類。
技術領域
本發明涉及中文新聞文本分類技術領域,特別是涉及一種基于組合-卷積神經網絡的中文新聞文本分類方法。
背景技術
如今,互聯網和大數據行業蓬勃發展,新聞已經成為人們了解社會動態、獲取社會信息資源的重要手段之一。自20世紀90年代末以來,建立了較多的新聞網站,移動端新聞APP也是種類繁多,由此產生了海量新聞數據。為了高效地獲取和管理有價值的新聞數據,新聞文本分類儼然成為世界上一個熱門的研究領域。新聞文本分類的實現,有助于文本信息的管理、新聞秩序的實現和新聞數據的挖掘。
因全球經濟一體化的影響,漢語作為世界上使用最廣泛的語言,儼然在世界語言體系中占有重要地位。然而,對中文的新聞文本分類卻很少,尤其是對中文長文本的分類。一方面,研究中文文本分類的相關語料庫較少,另一方面,漢語比西方語言復雜得多,很難用傳統的方法提取特征,這也是中文新聞文本分類發展緩慢的原因。
目前,文本分類作為自然語言處理的基礎問題之一,解決這一問題為自然語言處理打開了許多大門,如信息檢索、機器翻譯和自動文摘等。新聞文本分類常用的機器學習算法有:樸素貝葉斯(NB)、最近鄰(KNN)、決策樹(DT)、神經網絡(NNs)、最大熵模型(ME)和支持向量機(SVM)等。
2003年詞的分布式表示首次被Bengio等人運用于統計語言模型,神經語言模型開始獲得廣泛關注。2008年Collobert等人提出并采用神經網絡的方法將文本詞匯表示成張量數據,即相似的詞映射到向量空間中相近的位置,一個詞的含義由其上下文的詞匯決定,但是其共享單詞嵌入的方式只能在矩陣協作低級信息。2013年Mikolov等人提出來兩個模型,連續詞袋模型(CBOW)和連續Skip-gram模型。CBOW是以先驗概率的方式,輸入某一個特征詞上下文相關的詞向量,輸出該特定詞的詞向量。而連續Skip-gram模型的預測方式與CBOW相反,通過輸入中間詞的向量來預測上下文的詞向量。連續Skip-gram模型能夠更好地處理生僻詞,但是當數據量較大時,存在訓練耗時太長的問題。針對解決在百萬數量級的詞典和上億的數據集上進行高效地訓練的問題,Google開源了一款用于詞向量計算的工具——word2vec。該工具主要將單詞映射到低維空間,使用這些較低維的詞嵌入向量放入分類器。并且,word2vec得到的訓練結果詞向量(word embedding)可以很好地度量詞與詞之間的相似性。同年,Barakat等人在發表的論文中提到多層神經網絡有較為強大的特征學習能力,經過訓練可以更加準確地映射出原始數據的真實含義。
卷積神經網絡模型最初是為計算機視覺而發明的,后來被Meek證明對NLP是有效的,并在語義分析上取得了很好的效果。此后,LeCun等人提出了一種字符級卷積神經網絡模型,用不同的分類數據集進行語義分析和話題分類任務。但該方法用于中文文本分類的訓練和工作非常緩慢,因為中文文本分類的術語集和詞的N-gram要比英文文本分類要大得多。而且,字符級的特征處理放棄了詞所具有的語義信息,對于漢語來說,詞與字符之間存在很多重疊語義,該特征提取的方式存在缺陷。
因此,提供一種基于組合-卷積神經網絡的中文新聞文本分類方法顯得尤為必要。
發明內容
本發明的目的是提供一種基于組合-卷積神經網絡的中文新聞文本分類方法,以解決現有技術中的問題,能夠實現對中文新聞文本精準、有效地分類。
為實現上述目的,本發明提供了如下方案:本發明提供一種基于組合-卷積神經網絡的中文新聞文本分類方法,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京建筑大學,未經北京建筑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110419616.2/2.html,轉載請聲明來源鉆瓜專利網。





