[發明專利]文本分類方法及裝置和分類器模型訓練方法在審
| 申請號: | 201711052787.6 | 申請日: | 2017-10-30 |
| 公開(公告)號: | CN110019792A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 劉晨;唐超 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 李丹;栗若木 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 文本 分類器模型 分詞處理 特征向量 分類器模型訓練 文本類別 冗余詞 細分類 準確率 分詞 語料 去除 申請 預測 | ||
1.一種文本分類方法,其特征在于,包括:
對文本進行分詞處理,并去除所述文本中的冗余詞;
提取分詞處理后得到的各分詞的特征向量;
利用訓練得到的分類器模型對提取的各特征向量進行處理,得到所述文本的文本類別;
其中,所述分類器模型通過提取的關鍵詞,以及設定環境的語料訓練得到。
2.根據權利要求1所述的文本分類方法,其特征在于,所述分類器模型通過提取的關鍵詞,以及設定環境的語料訓練得到,具體包括:
對訓練文本和獲取的互聯網語料進行分詞處理,并去除訓練文本和獲取的互聯網語料中的冗余詞;
對分詞處理后的互聯網語料進行詞向量訓練得到詞向量模型,對分詞處理后的訓練文本構建類別關鍵詞詞典;
根據得到的類別關鍵詞詞典和詞特征向量模型進行分類器訓練得到所述分類器模型。
3.根據權利要求1或2所述的文本分類方法,其特征在于,所述去除冗余詞包括:刪除停用詞、刪除無關詞。
4.根據權利要求2所述的方法,其特征在于,所述對分詞處理后的互聯網語料進行詞向量訓練得到詞向量模型包括:
利用用于詞向量訓練的算法對所述分詞處理后的互聯網預料進行訓練得到所述詞向量模型。
5.根據權利要求2所述的文本分類方法,其特征在于,所述構建類別關鍵詞詞典包括:根據詞頻和逆詞頻篩選出所述分詞處理后的訓練文本中每個類別中重要的詞,以構建所述類別關鍵詞詞典。
6.根據權利要求2所述的文本分類方法,其特征在于,所述進行分類器訓練得到分類器模型包括:分別將得到的所述類別關鍵詞詞典和所述詞特征向量模型轉化為空間向量格式以訓練得到所述分類器模型。
7.根據權利要求2所述的文本分類方法,其特征在于,所述提取分詞處理后得到的各分詞的特征向量包括:
利用所述詞向量模型和類別關鍵詞詞典,從所述分詞處理后的得到的各分詞分別提取詞特征向量和關鍵詞分布向量。
8.根據權利要求7所述的文本分類方法,其特征在于,所述得到所述文本的文本類別包括:
將提取的所述詞特征向量和所述關鍵詞分布向量輸入到所述分類器模型中,分別獲取所述文本屬于每一類別的概率,并將最高的概率對應的類別作為所述文本的文本類別。
9.一種分類器模型訓練方法,其特征在于,包括:
對訓練文本和獲取的互聯網語料進行分詞處理,并去除訓練文本和獲取的互聯網語料中的冗余詞;
對分詞處理后的互聯網語料進行詞向量訓練得到詞向量模型,對分詞處理后的訓練文本構建類別關鍵詞詞典;
根據得到的類別關鍵詞詞典和詞特征向量模型進行分類器訓練得到所述分類器模型。
10.根據權利要求9所述的分類器模型訓練方法,其特征在于,所述去除冗余詞包括:刪除停用詞、無關詞。
11.根據權利要求9所述的分類器模型訓練方法,其特征在于,所述對分詞處理后的互聯網語料進行詞向量訓練得到詞向量模型包括:
利用用于詞向量訓練的算法對所述分詞處理后的互聯網預料進行訓練得到所述詞向量模型。
12.根據權利要求9所述的分類器模型訓練方法,其特征在于,所述構建類別關鍵詞詞典包括:根據詞頻和逆詞頻篩選出所述分詞處理后的訓練文本中每個類別中重要的詞,以構建所述類別關鍵詞詞典。
13.根據權利要求9所述的分類器模型訓練方法,其特征在于,所述進行分類器訓練得到分類器模型包括:分別將得到的所述類別關鍵詞詞典和所述詞特征向量模型轉化為空間向量格式以訓練得到所述分類器模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711052787.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分類模型訓練、偽基站短信識別方法和裝置
- 下一篇:一種文本語義編碼方法及裝置





