[發明專利]基于卷積神經網絡的文本分類方法及相關設備在審
| 申請號: | 201910042629.5 | 申請日: | 2019-01-17 |
| 公開(公告)號: | CN109918500A | 公開(公告)日: | 2019-06-21 |
| 發明(設計)人: | 徐亮;金戈;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉立天 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞向量 向量 卷積神經網絡 待分類文本 映射關系 文本分類 文本分類模型 人工智能領域 準確度 融合 申請 轉換 | ||
本申請涉及人工智能領域,公開了一種基于卷積神經網絡的文本分類方法及相關設備,所述方法包括:獲取詞與詞向量之間的映射關系以及字與字向量之間的映射關系;獲取待分類文本,并根據所述詞與詞向量之間的映射關系以及字與字向量之間的映射關系將所述待分類文本轉換成詞向量及字向量;將所述詞向量及字向量輸入卷積神經網絡文本分類模型,并通過所述卷積神經網絡文本分類模型對所述詞向量及字向量進行融合,獲得所述待分類文本的類型。本申請通過將待分類文本提取詞向量和字向量,并將所述詞向量和字向量輸入卷積神經網絡進行融合,可以有效的提高文本分類的準確度。
技術領域
本申請涉及人工智能領域,特別涉及一種基于卷積神經網絡的文本分類方法及相關設備。
背景技術
文本分類是對大量非結構化的文字信息(文本文檔、網頁等)按照給定的分類體系,根據文字信息內容分到指定的類別中去,是一種有指導的學習過程。詞匹配法是最早被提出的分類算法。這種方法僅根據文檔中是否出現了與類名相同的詞來判斷文檔是否屬于某個類別。很顯然,這種過于簡單機械的方法無法帶來良好的分類效果。現如今,統計學習方法已經成為了文本分類領域絕對的主流。主要的原因在于其中的很多技術擁有堅實的理論基礎,存在明確的評價標準,以及實際表現良好。統計分類算法將樣本數據成功轉化為向量表示之后,計算機才算開始真正意義上的“學習”過程。常用的分類算法為:決策樹,Rocchio,樸素貝葉斯,神經網絡,支持向量機,線性最小平方擬合,kNN,遺傳算法,最大熵,Generalized Instance Set等。
現有神經網絡文本分類模型主要基于詞向量,盡管詞向量在文本分類模型中的應用優于字向量,但是字向量能夠通過字符層面表示文本語義,對詞向量的應用是很好的補充。目前對文本分類的方法沒有針對詞向量和字向量的,而少了字向量,會顯著降低文本分類的準確度,不利于對文本的分析。
發明內容
本申請的目的在于針對現有技術的不足,提供一種基于卷積神經網絡的文本分類方法及相關設備,通過將待分類文本提取詞向量和字向量,并將所述詞向量和字向量輸入卷積神經網絡進行融合,可以有效的提高文本分類的準確度。
為達到上述目的,本申請的技術方案提供一種基于卷積神經網絡的文本分類方法及相關設備。
本申請公開了一種基于卷積神經網絡的文本分類方法,包括以下步驟:
獲取詞與詞向量之間的映射關系以及字與字向量之間的映射關系;
獲取待分類文本,并根據所述詞與詞向量之間的映射關系以及字與字向量之間的映射關系將所述待分類文本轉換成詞向量及字向量;
將所述詞向量及字向量輸入卷積神經網絡文本分類模型,并通過所述卷積神經網絡文本分類模型對所述詞向量及字向量進行融合,獲得所述待分類文本的類型。
較佳地,所述獲取詞與詞向量之間的映射關系以及字與字向量之間的映射關系,包括:
獲取文本訓練數據,對所述文本訓練數據進行分詞,獲得詞數據;
對所述文本訓練數據進行分字,獲得字數據;
對所述詞數據和字數據通過word2vec模型進行轉換,獲得詞向量和字向量,并分別建立詞與詞向量之間的映射關系及字與字向量之間的映射關系。
較佳地,所述獲取待分類文本,并根據所述詞與詞向量之間的映射關系以及字與字向量之間的映射關系將所述待分類文本轉換成詞向量及字向量,包括:
獲取待分類文本,將所述待分類文本進行分詞,獲得詞數據,并根據所述詞與詞向量之間的映射關系將所述詞數據轉換為詞向量;
對所述待分類文本進行分字,獲得字數據,并根據所述字與字向量之間的映射關系將所述字數據轉換為字向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910042629.5/2.html,轉載請聲明來源鉆瓜專利網。





