[發明專利]統計分類模型訓練裝置及訓練方法有效
| 申請號: | 201810025343.1 | 申請日: | 2018-01-11 |
| 公開(公告)號: | CN108256029B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 李德彥;晉耀紅;席麗娜 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 統計 分類 模型 訓練 裝置 方法 | ||
本發明實施例公開一種統計分類模型訓練裝置及方法,該訓練裝置包括分詞模塊、特征選擇模塊、分類算法模塊、算法參數調整模塊和訓練與評估模塊;分詞模塊用于利用分詞算法,以及與分詞算法對應的第一分詞模型,將訓練語料進行分詞得到分詞結果;特征選擇模塊用于利用特征選擇方法從分詞結果中篩選出第一特征集;分類算法模塊用于提供分類算法;算法參數調整模塊用于提供與分類算法對應的分類算法參數,以及獲取分類算法參數的參數值;訓練與評估模塊用于利用分類算法、參數值組、第一特征集以及訓練語料的標記分類標簽,從與每一組參數值組各自對應的統計分類模型中篩選出精度最高的統計分類模型。該訓練裝置在訓練分類模型時調整便捷,適用性好。
技術領域
本發明涉及文本分類模型的訓練技術領域,具體涉及一種統計分類模型訓練裝置,此外,本發明還涉及一種統計分類模型訓練方法。
背景技術
隨著信息時代的迅速發展,信息數據呈現爆炸式的增長方式,并且信息數據的結構雜亂無章。人們需要利用信息分類技術對這些海量級的、雜亂無章的信息數據進行分類,以便有效地組織管理。在信息分類技術中,基于統計的文本分類技術是其中一類常用的技術。
基于統計的文本分類技術一般包括兩個階段:訓練階段和分類階段。在訓練階段,計算機利用帶標記分類標簽的文本(又稱為訓練語料)總結出分類規則,構建統計分類模型。這個過程也可以理解為統計分類模型的訓練過程。在分類階段,計算機運用訓練好的統計分類模型對未知的文本進行分類。
常規的統計分類模型訓練方法都是一個一個完整且獨立的方法,是針對特定的應用場景而開發的,其中具體采用的分類算法、分類算法中具體參數值,以及采用的訓練語料等都是確定的。將這樣的統計分類模型訓練方法應用到其他不同的場景中,訓練語料發生了改變,如果不更換分類算法或者不改變分類算法的參數值等,則訓練得到的統計分類模型在使用時其精度無法達到要求。但改變參數值或者直接更換分類算法,又或者調整訓練語料的處理方法、特征選擇方法等,則需要編程人員重新編寫大量代碼,實現難度較大。
發明內容
為解決上述技術問題,本申請提供一種統計分類模型訓練裝置,以避免用戶在不同應用場景中編寫大量代碼,提高訓練裝置的適用性。
第一方面,提供一種統計分類模型訓練裝置,包括分詞模塊、特征選擇模塊、分類算法模塊、算法參數調整模塊、訓練與評估模塊;
所述分詞模塊包括分詞算法單元和分詞模型單元,所述分詞算法單元用于為用戶提供統計分類模型訓練裝置所支持的分詞算法,所述分詞模型單元用于為用戶提供統計分類模型訓練裝置所支持的第一分詞模型,所述分詞算法與所述第一分詞模型具有映射關系;所述分詞模塊用于利用用戶從分詞算法單元中選擇的分詞算法,以及與所述分詞算法對應的第一分詞模型,將訓練語料進行分詞,得到分詞結果;
所述特征選擇模塊用于為用戶提供統計分類模型訓練裝置所支持的特征選擇方法,以及,利用用戶選擇的特征選擇方法從所述分詞結果中篩選出第一特征集;
所述分類算法模塊用于為用戶提供統計分類模型訓練裝置所支持的分類算法;
所述算法參數調整模塊用于根據用戶從分類算法模塊中選擇的分類算法,為用戶提供與所述分類算法對應的至少一個可由用戶調整的分類算法參數,以及獲取所述分類算法參數所對應的參數值;
所述訓練與評估模塊用于將分類算法參數的參數值進行全組合,得到至少一組參數值組;以及,利用用戶從分類算法模塊中選擇的分類算法、所述參數值組、所述第一特征集以及所述訓練語料的標記分類標簽,從與每一組參數值組各自對應的統計分類模型中篩選出精度最高的統計分類模型。
可選地,所述分詞模型單元還用于獲取用戶自定義的第二分詞模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810025343.1/2.html,轉載請聲明來源鉆瓜專利網。





