[發明專利]短文本的分類方法、裝置、電子設備和存儲介質在審
| 申請號: | 201711157884.1 | 申請日: | 2017-11-20 |
| 公開(公告)號: | CN110069627A | 公開(公告)日: | 2019-07-30 |
| 發明(設計)人: | 潘鋼 | 申請(專利權)人: | 中國移動通信集團上海有限公司;中國移動通信集團公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;李相雨 |
| 地址: | 200060 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標短文本 有效詞 類別信息 向量 短文本 存儲介質 電子設備 向量表示 重要度 分類 預處理 量化處理 向量化 準確率 概率 | ||
1.一種短文本的分類方法,其特征在于,所述方法包括:
對目標短文本進行預處理,得到多個有效詞;
對所述有效詞進行第一向量化處理,獲取第一向量,所述第一向量表示每一有效詞在所述目標短文本的重要度;
根據所述第一向量,確定所述目標短文本的第一類別信息,所述第一類別信息包括所述目標短文本為每一類別的概率;
對所述有效詞進行第二向量化處理,獲取第二向量,所述第二向量表示每一有效詞在所述目標短文本的詞序;
根據所述第二向量,確定所述目標短文本的第二類別信息,所述第二類別信息包括所述目標短文本為每一類別的概率;
根據所述第一類別信息和所述第二類別信息,確定所述目標短文本的類別。
2.根據權利要求1所述的方法,其特征在于:所述第一向量的列數是索引詞典的維度,所述索引詞典的維度是預先確定的訓練集的樣本短文本的有效詞的總數。
3.根據權利要求1所述的方法,其特征在于:所述有效詞的重要度是根據詞頻反文檔頻率的方式得到的。
4.根據權利要求1所述的方法,其特征在于:根據所述第一向量,確定所述目標短文本的第一類別信息的步驟具體為:
將所述第一向量輸入至預先確定的詞袋模型,輸出所述第一類別信息,所述詞袋模型基于隨機森林分類器或基于支持向量機分類器。
5.根據權利要求1所述的方法,其特征在于:對所述有效詞進行第二向量化處理,獲取第二向量的步驟具體為:
對每一有效詞進行處理,得到詞向量,所述詞向量的行數是有效詞的個數,列數是預先確定的最大長度;
根據所述詞向量,得到第二向量。
6.根據權利要求1所述的方法,其特征在于:根據所述第二向量,確定所述目標短文本的第二類別信息的步驟具體為:
將所述第二向量輸入至預先確定的詞序模型,輸出所述第二類別信息,所述詞序模型基于長短期記憶網絡分類器或循環神經網絡分類器。
7.根據權利要求1所述的方法,其特征在于:根據所述第一類別信息和所述第二類別信息,確定所述目標短文本的類別的步驟具體為:
將所述第一類別信息以及對應的第一權重,所述第二類別信息以及對應的第二權重輸入至預先確定的線性回歸模型,確定所述目標短文本的類別,所述線性回歸模型是根據詞袋模型和詞序模型融合得到的。
8.一種短文本的分類裝置,其特征在于,所述裝置包括:
預處理模塊,用于對目標短文本進行預處理,得到多個有效詞;
第一獲取模塊,用于對所述有效詞進行第一向量化處理,獲取第一向量,所述第一向量表示每一有效詞在所述目標短文本的重要度;
第一確定模塊,用于根據所述第一向量,確定所述目標短文本的第一類別信息,所述第一類別信息包括所述目標短文本為每一類別的概率;
第二獲取模塊,用于對所述有效詞進行第二向量化處理,獲取第二向量,所述第二向量表示每一有效詞在所述目標短文本的詞序;
第二確定模塊,用于根據所述第二向量,確定所述目標短文本的第二類別信息,所述第二類別信息包括所述目標短文本為每一類別的概率;
第三確定模塊,用于根據所述第一類別信息和所述第二類別信息,確定所述目標短文本的類別。
9.一種電子設備,其特征在于,包括存儲器、處理器、總線以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1-7任意一項的步驟。
10.一種存儲介質,其上存儲有計算機程序,其特征在于:所述程序被處理器執行時實現如權利要求1-7任意一項的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團上海有限公司;中國移動通信集團公司,未經中國移動通信集團上海有限公司;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711157884.1/1.html,轉載請聲明來源鉆瓜專利網。





