[發明專利]文本分類特征提取方法、文本分類方法及裝置有效
| 申請號: | 201710107388.9 | 申請日: | 2017-02-27 |
| 公開(公告)號: | CN106897428B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 包恒耀;蘇可;饒孟良;陳益 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 郭曼;王琦 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 特征 提取 方法 裝置 | ||
1.一種文本分類方法,其特征在于,包括:
從訓練集中的多個訓練文本中獲取特征詞集合,每一個訓練文本帶有類別標簽,所述類別標簽用于表征音樂、笑話和天氣中的一個類別;
對于任一類別,根據所述特征詞集合及所述類別標簽,確定所述特征詞集合中每一個特征詞與該類別的屬性相關度及在該類別中的詞頻;從所述特征詞集合中,選取所述屬性相關度符合預設第一條件的特征詞及所述詞頻符合預設第二條件的特征詞,作為該類別的分類特征詞;
為每一個分類特征詞,構建該分類特征詞的分類特征詞向量,所述分類特征詞向量的各個維度分別對應各個類別的分類特征詞,各個維度上的非零值為該分類特征詞在對應類別下的屬性相關度或詞頻;
根據每一個類別的分類特征詞及每一個分類特征詞的分類特征詞向量,獲得每一個訓練文本的訓練文本向量,并根據每一個訓練文本的訓練文本向量及類別標簽,建立分類模型,所述分類模型包括第一層分類模型及第二層分類模型,所述第一層分類模型用于根據待分類文本的文本向量,確定所述待分類文本屬于各類別的第一概率,所述第二層分類模型用于根據輸入的所述第一概率,確定所述待分類文本屬于各類別的第二概率,所述第二概率趨近于0或者1。
2.根據權利要求1所述的方法,其中,若各個類別的分類特征詞一共包括N個特征詞,所述分類特征詞向量的維度總數為N,N為正整數。
3.根據權利要求1所述的方法,其中,所述待分類文本為用戶通過智能音箱上的麥克輸入的文本。
4.根據權利要求1所述的方法,其中,所述屬性相關度包括卡方統計量和/或互信息量;其中,所述卡方統計量對應第一子條件,和/或,所述互信息量對應第二子條件;
所述從所述特征詞集合中,選取所述屬性相關度符合預設第一條件的特征詞包括:
選取所述卡方統計量符合所述第一子條件的特征詞;和/或
選取所述互信息量符合所述第二子條件的特征詞。
5.根據權利要求1所述的方法,其中,所述從訓練集中的多個訓練文本中獲取特征詞集合包括:
對每一訓練文本進行分詞處理,獲得所述特征詞集合。
6.根據權利要求1所述的方法,還包括:
根據每一個類別的分類特征詞及每一個分類特征詞的分類特征詞向量,獲得所述待分類文本的待分類文本向量;
根據所述待分類文本向量及所述分類模型,確定所述待分類文本屬于各類別的第二概率;
根據所述待分類文本屬于各類別的第二概率,確定所述待分類文本所屬的類別。
7.根據權利要求6所述的方法,其中,所述根據所述待分類文本向量及所述分類模型,確定所述待分類文本屬于各類別的第二概率包括:
根據所述待分類文本向量及所述第一層分類模型,確定所述待分類文本屬于各類別的第一概率;
根據所確定的第一概率及所述第二層分類模型,確定所述待分類文本屬于各類別的第二概率。
8.根據權利要求1所述的方法,其中,所述根據每一個類別的分類特征詞及每一個分類特征詞的分類特征詞向量,獲得每一個訓練文本的訓練文本向量包括:
對于所述訓練集中的任一訓練文本,執行如下處理:
獲得該訓練文本的特征詞集合;
針對該特征詞集合中的每一個特征詞,在每一個類別的分類特征詞中查找與該特征詞相同的分類特征詞,并將查找到的各分類特征詞對應的分類特征詞向量合并,將合并得到的分類特征詞向量作為該特征詞的特征向量;
將該特征詞集合中每一個特征詞的特征向量合并,獲得該訓練文本的訓練文本向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710107388.9/1.html,轉載請聲明來源鉆瓜專利網。





