[發明專利]一種文本分類方法及裝置有效
| 申請號: | 201610479035.7 | 申請日: | 2016-06-27 |
| 公開(公告)號: | CN106202177B | 公開(公告)日: | 2017-12-15 |
| 發明(設計)人: | 盧錚;段煥中 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙)44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 裝置 | ||
技術領域
本申請涉及樣本分類技術領域,更具體地說,涉及一種文本分類方法及裝置。
背景技術
文本分類是指,計算機對文本集合按照一定的分類體系,自動分類標記。文本分類通常包括以下幾個環節:分類體系建立、獲取標注的訓練集、分類模型訓練以及利用訓練的分類模型預測新文本的類別。
其中,獲取標注的訓練集的過程即為,對未知類別的語料進行類別標注,標注好的語料組成訓練集。訓練集的大小以及語料標注的準確度將會直接影響到訓練的分類模型的識別精度。現有技術獲取標注的訓練集的方式一般是,采用人工標注的方式,也即每當出現新的未標注語料時,組織人力對未知類別的語料進行人工標注。
顯然,現有人工標注訓練集的方式需要耗費大量人力資源。
發明內容
有鑒于此,本申請提供了一種文本分類方法及裝置,用于解決現有人工標注訓練集浪費大量人力資源的問題。
為了實現上述目的,現提出的方案如下:
一種文本分類方法,包括:
根據語料庫中各未標注語料訓練詞向量模型,得到目標詞向量模型;
根據所述目標詞向量模型,對預設的與指定分類類別對應的關鍵詞進行詞擴展,得到擴展后的所述指定分類類別對應的詞組集合;
根據所述語料庫對所述詞組集合中各詞組分別訓練分類器,得到與各詞組分別對應的目標分類器,目標分類器為二值分類器,分類結果為是所述指定分類類別或不是所述指定分類類別;
根據預設的驗證集,對各詞組對應的目標分類器進行分類準確度檢驗,選取分類準確度符合第一設定條件的詞組作為目標詞組;
根據所述語料庫中各語料所包含的目標詞組,選取滿足第二設定條件的語料,將其標記為所述指定分類類別的正例樣本,并加入所述指定分類類別對應的訓練集。
一種文本分類方法,包括:
根據主題模型對語料庫中各語料進行主題預測,得到若干主題;
根據所述語料庫對各所述主題分別訓練分類器,得到與各主題分別對應的目標分類器,各主題對應的目標分類器為二值分類器,分類結果為是對應主題或不是對應主題;
根據各主題對應的目標分類器對預設的驗證集內各驗證樣本進行主題識別,所述驗證集包括標注有指定分類類別的驗證樣本;
基于各驗證樣本主題識別結果及各驗證樣本的指定分類類別,確定與指定分類類別對應的主題;
根據所述語料庫中各語料預測的主題,確定預測的主題與所述指定分類類別對應的語料,將其標記為指定分類類別的正例樣本,加入指定分類類別對應的訓練集。
一種文本分類裝置,包括:
詞向量模型訓練單元,用于根據語料庫中各未標注語料訓練詞向量模型,得到目標詞向量模型;
詞擴展單元,用于根據所述目標詞向量模型,對預設的與指定分類類別對應的關鍵詞進行詞擴展,得到擴展后的所述指定分類類別對應的詞組集合;
詞組分類器訓練單元,用于根據所述語料庫對所述詞組集合中各詞組分別訓練分類器,得到與各詞組分別對應的目標分類器,目標分類器為二值分類器,分類結果為是所述指定分類類別或不是所述指定分類類別;
驗證集驗證單元,用于根據預設的驗證集,對各詞組對應的目標分類器進行分類準確度檢驗,選取分類準確度符合第一設定條件的詞組作為目標詞組;
訓練集生成單元,用于根據所述語料庫中各語料所包含的目標詞組,選取滿足第二設定條件的語料,將其標記為所述指定分類類別的正例樣本,并加入所述指定分類類別對應的訓練集。
一種文本分類裝置,包括:
主題預測單元,用于根據主題模型對語料庫中各語料進行主題預測,得到若干主題;
主題分類器訓練單元,用于根據所述語料庫對各所述主題分別訓練分類器,得到與各主題分別對應的目標分類器,各主題對應的目標分類器為二值分類器,分類結果為是對應主題或不是對應主題;
驗證集主題識別單元,用于根據各主題對應的目標分類器對預設的驗證集內各驗證樣本進行主題識別,所述驗證集包括標注有指定分類類別的驗證樣本;
類別與主題映射單元,用于基于各驗證樣本主題識別結果及各驗證樣本的指定分類類別,確定與指定分類類別對應的主題;
語料查找單元,用于根據所述語料庫中各語料預測的主題,確定預測的主題與所述指定分類類別對應的語料,將其標記為指定分類類別的正例樣本,加入指定分類類別對應的訓練集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610479035.7/2.html,轉載請聲明來源鉆瓜專利網。





