[發明專利]基于神經網絡的文本分類方法、系統及計算機設備在審
| 申請號: | 201910374240.0 | 申請日: | 2019-05-07 |
| 公開(公告)號: | CN110263152A | 公開(公告)日: | 2019-09-20 |
| 發明(設計)人: | 于鳳英;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 林彥之 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積 文本分類 詞向量 分詞 輸入向量 矩陣 神經網絡 特征圖 映射 待分類文本 分類準確率 計算機設備 分類文本 分類向量 記憶網絡 元素配置 卷積核 | ||
本發明實施例提供了一種基于神經網絡的文本分類方法,所述方法包括:對待分類文本進行分詞操作以獲取L個分詞;對所述L個分詞分別進行詞向量映射,以獲取L*d維詞向量矩陣,其中每個分詞映射為一個d維詞向量;通過卷積層對所述L*d維詞向量矩陣執行卷積操作,得到M個卷積特征圖,所述卷積層包括M個f*d的卷積核;將每個卷積特征圖中的第j個元素配置到第j個輸入向量中,得到(L?f+1)個輸入向量,1≤j≤(L?f+1);及將所述(L?f+1)個輸入向量依順序輸入到長短短期記憶網絡模型中,計算所述待分類文本的分類向量。本發明實施例提供的文本分類方法,可以有效避免文本分類錯誤的問題,從而提高分類準確率。
技術領域
本發明實施例涉及計算機數據處理領域,尤其涉及一種基于神經網絡的文本分類方法、系統、計算機設備及計算機可讀存儲介質。
背景技術
文本分類是自然語言處理的重要任務之一,類似于文章的行業分類,情感分析等許多自然語言處理任務其實質都是文本的分類。目前常用的文本分類器主要可以分成兩大類:基于先驗規則的文本分類器和基于模型的文本分類器。基于先驗規則的文本分類器的分類規則需要靠人工挖掘或先驗知識的積累?;谀P偷奈谋痉诸惼?,如基于LDA(LatentDirichlet Allocation,文檔主題生成模型)等主題模型對文本分類。
然而,采用上述分類方法經常會出現分類錯誤的問題,導致分類的準確率低。
發明內容
有鑒于此,本發明實施例的目的是提供一種基于神經網絡的文本分類方法、系統、計算機設備及計算機可讀存儲介質,解決文本分類錯誤、分類準確率低的問題。
為實現上述目的,本發明實施例提供了一種基于神經網絡的文本分類方法,包括以下步驟:
對待分類文本進行分詞操作以獲取L個分詞;
對所述L個分詞分別進行詞向量映射,以獲取L*d維詞向量矩陣,其中每個分詞映射為一個d維詞向量;
通過卷積層對所述L*d維詞向量矩陣執行卷積操作,得到M個卷積特征圖,所述卷積層包括M個f*d的卷積核;
將每個卷積特征圖中的第j個元素配置到第j個輸入向量中,得到(L-f+1)個輸入向量,1≤j≤(L-f+1),其中所述第j個輸入向量中的元素排列順序由各個元素所在的特征卷積圖的i值決定,i為卷積核標識,1≤i≤M;及
將所述(L-f+1)個輸入向量依順序輸入到長短短期記憶網絡模型中,計算所述待分類文本的分類向量。
優選地,所述對待分類文本進行分詞操作以獲取L個分詞的步驟,包括:
獲取瀏覽所述待分類文本的多個用戶的多個用戶屬性信息;
根據所述多個用戶的多個用戶屬性信息,分析得到瀏覽所述待分類文本的目標群體;
根據所述目標群體的歷史用戶畫像,得到所述待分類文本對應每個主題的預測概率;
根據所述每個主題的預測概率,篩選預測概率大于預設閥值的多個目標主題;及
基于所述多個目標主題對所述待分類文本進行分詞操作。
優選地,所述基于所述多個目標主題對所述待分類文本進行分詞操作的步驟,包括:
根據所述多個目標主題的多個主題詞庫,對所述待分類文本進行分詞操作。
優選地,所述基于所述多個目標主題對所述待分類文本進行分詞操作的步驟,包括:
根據每個目標主題關聯的主題詞庫分別對所述待分類文本進行分詞操作,以得到多個分詞集合;
對比各個分詞集合在相應字符位置區域的分詞是否相同;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910374240.0/2.html,轉載請聲明來源鉆瓜專利網。





