[發明專利]文本分類特征提取方法、文本分類方法及裝置有效
| 申請號: | 201710107388.9 | 申請日: | 2017-02-27 |
| 公開(公告)號: | CN106897428B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 包恒耀;蘇可;饒孟良;陳益 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 郭曼;王琦 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 特征 提取 方法 裝置 | ||
本申請公開了一種文本分類特征提取方法,從訓練集中的多個訓練文本中獲取特征詞集合,確定所述特征詞集合中每一個特征詞與某一類別的屬性相關度及每一個特征詞在該類別中的詞頻,從所述特征詞集合中選取所述屬性相關度符合預設第一條件的特征詞及所述詞頻符合預設第二條件的特征詞作為對應類別的分類特征詞。本申請還提出了相應的文本分類方法、文本分類特征提取裝置及文本分類裝置。
技術領域
本申請涉及信息處理技術領域,尤其涉及一種文本分類特征提取方法、裝置、文本分類方法及裝置。
背景技術
目前,隨著互聯網技術的發展,互聯網上的文本越來越多,大量的文本給用戶提供方便的同時也給用戶的查找帶來了很大的不便。如何有效的管理這些文本是當前的熱點問題,面對這個問題,文本分類被提出來了,文本分類能夠按照預先定義的主題類別,為文本確定一個類別,將文本按照類別進行分類,從而方便用戶查找。文本分類作為管理海量數據的關鍵技術,已得到廣泛的應用。
發明內容
本申請實例提供了一種文本分類特征提取方法,包括:
從訓練集中的多個訓練文本中獲取特征詞集合,每一個訓練文本帶有類別標簽,所述類別標簽用于表征對應訓練文本所屬的預設多個類別中的一個類別;
對于所述預設多個類別中的任一類別,通過以下處理確定該類別的分類特征詞:
根據所述特征詞集合及所述多個訓練文本的類別標簽,確定所述特征詞集合中每一個特征詞與該類別的屬性相關度及每一個特征詞在該類別中的詞頻,其中,所述屬性相關度表征對應特征詞與該類別的屬性關聯程度,所述詞頻表征在屬于該類別的訓練文本中,包含對應特征詞的訓練文本所占的比例;
從所述特征詞集合中選取所述屬性相關度符合預設第一條件的特征詞及所述詞頻符合預設第二條件的特征詞;
將所選取的特征詞作為該類別的分類特征詞;
其中,所述分類特征詞用于在文本分類時獲取文本的文本向量。
本申請實例提供了一種文本分類方法,包括:
根據上述的方法,確定預設多個類別中每一個類別的分類特征詞;
根據預設多個類別中每一個類別的分類特征詞及每一個分類特征詞的分類特征詞向量,獲得訓練集中每一個訓練文本的訓練文本向量及待分類文本的待分類文本向量,其中,所述分類特征詞向量的各維度分別對應所述多個類別的分類特征詞,每一維度的值為對應分類特征詞的特征權重;
根據所述每一個訓練文本的訓練文本向量及每一個訓練文本的類別標簽,建立分類模型,所述分類模型用于根據文本的文本向量確定文本屬于各類別的概率;
根據所述待分類文本的待分類文本向量及所述分類模型,確定所述待分類文本屬于各類別的概率;
根據所述待分類文本屬于各類別的概率確定所述待分類文本所屬的類別。
本申請實例提供了一種文本分類特征提取裝置,包括:
特征詞集合獲取單元,用于從訓練集中多個訓練文本中獲取特征詞集合,每一個訓練文本帶有類別標簽,所述類別標簽用于表征對應訓練文本所屬的預設多個類別中的一個類別;
分類特征詞獲取單元,用于對于所述預設多個類別中的任一類別,確定該類別的分類特征詞,所述分類特征詞獲取單元包括:
屬性相關度及詞頻計算模塊,用于根據所述特征詞集合及所述多個訓練文本的類別標簽,確定所述特征詞集合中每一個特征詞與該類別的屬性相關度及每一個特征詞在該類別中的詞頻,其中,所述屬性相關度表征對應特征詞與該類別的屬性關聯程度,所述詞頻表征在屬于該類別的訓練文本中,包含對應特征詞的訓練文本所占的比例;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710107388.9/2.html,轉載請聲明來源鉆瓜專利網。





