[發明專利]文本分類方法和裝置、及電子設備在審
| 申請號: | 201811337616.2 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109460472A | 公開(公告)日: | 2019-03-12 |
| 發明(設計)人: | 朱翔宇 | 申請(專利權)人: | 北京京東金融科技控股有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 呂雁葭 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 文本 方法和裝置 電子設備 向量特征 預測信息 分類器 組分類 分類結果 文本數據 | ||
1.一種文本分類方法,包括:
根據所述文本包括的多個文本數據,獲取文本的向量特征;
以所述向量特征作為多個第一分類器的輸入,得到所述文本的多組分類預測信息;以及
以所述多組分類預測信息作為第二分類器的輸入,得到所述文本的分類結果。
2.根據權利要求1所述的方法,其中,所述文本的向量特征包括:
頻率向量,用于表征所述文本包括的多個文本數據的詞頻-逆文件頻率;并且/或者
詞向量,用于表征所述文本包括的多個文本數據;并且/或者
句向量,用于表征所述文本包括的多個文本數據組成的多個語句。
3.根據權利要求2所述的方法,其中,以所述向量特征作為多個第一分類器的輸入,得到所述文本的多組預測分類信息包括:
以所述頻率向量、所述詞向量和所述句向量中的至少兩個向量分別作為多個不同的第一分類器的輸入,得到所述文本的多組分類預測信息,
其中,以所述詞向量或句向量作為輸入的第一分類器包括神經網絡模型分類器,每個第一分類器以一個向量作為輸入,得到一組分類預測信息。
4.根據權利要求2所述的方法,其中,以所述向量特征作為多個第一分類器的輸入,得到所述文本的多組預測分類信息包括:
以所述頻率向量分別作為多個不同的第一分類器的輸入,得到所述文本的多組分類預測信息,
其中,以所述頻率向量作為輸入的第一分類器包括伯努利模型分類器、多項式模型分類器和/或邏輯回歸模型分類器。
5.根據權利要求1所述的方法,還包括:
根據所述文本包括的多個文本數據,獲取文本的統計特征;以及
以所述統計特征及所述多組分類預測信息作為所述第二分類器的輸入,得到所述文本的分類結果,
其中,所述統計特征包括:所述文本包括的多個文本數據中每個文本數據的出現次數、所述多個文本數據中包括預設關鍵詞的數量、和/或根據所述文本包括的多個文本數據中的時間數據得到的時間間隔的最大值、最小值、極差值和/或平均值。
6.根據權利要求1所述的方法,其中,在獲取所述文本的向量特征之前,所述方法還包括:
對所述文本包括的所有文本數據進行分詞處理,得到所述多個文本數據;并且/或者
過濾掉所述文本包括的所有文本數據中的停用詞,得到所述多個文本數據。
7.一種文本分類裝置,包括:
處理模塊,用于根據所述文本包括的多個文本數據,獲取文本的向量特征;
多個第一分類器,用于分別以所述向量特征作為輸入,得到所述文本的多組分類預測信息;以及
第二分類器,用于以所述多組分類預測信息作為輸入,得到所述文本的分類結果。
8.根據權利要求7所述的裝置,其中,所述文本的向量特征包括:
頻率向量,用于表征所述文本包括的多個文本數據的詞頻-逆文件頻率;并且/或者
詞向量,用于表征所述文本包括的多個文本數據;并且/或者
句向量,用于表征所述文本包括的多個文本數據組成的多個語句。
9.根據權利要求7所述的裝置,其中,所述多個第一分類器為不同的分類器,每一個第一分類器以所述頻率向量、詞向量和句向量中的任意一個向量作為輸入,得到一組分類預測信息,其中:
所述多個第一分類器中的至少兩個分類器的輸入為不同向量;并且/或者
所述多個第一分類器中的至少兩個分類器的輸入均為所述頻率向量;并且/或者
以所述詞向量或句向量作為輸入的第一分類器包括神經網絡模型分類器;并且/或者
以所述頻率向量作為輸入的第一分類器包括伯努利模型分類器、多項式模型分類器和/或邏輯回歸模型分類器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東金融科技控股有限公司,未經北京京東金融科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811337616.2/1.html,轉載請聲明來源鉆瓜專利網。





