[發明專利]分類模型訓練方法、文本挖掘方法、設備及存儲介質在審
| 申請號: | 202210372329.5 | 申請日: | 2022-04-11 |
| 公開(公告)號: | CN114911929A | 公開(公告)日: | 2022-08-16 |
| 發明(設計)人: | 陳志優;李健;陳明;武衛東 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F16/33;G06N20/00 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100193 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 模型 訓練 方法 文本 挖掘 設備 存儲 介質 | ||
1.一種分類模型訓練方法,其特征在于,所述方法包括:
獲取多個對話文本作為訓練數據;
依據所述訓練數據對分類模型執行訓練,得到階段訓練完成的分類模型;
基于所述訓練數據確定差異信息,依據所述差異信息判斷所述階段訓練完成的分類模型是否符合場景挖掘條件;
若所述差異信息符合場景挖掘條件,則依據所述訓練數據和階段訓練完成的分類模型更新訓練數據并繼續訓練;
若所述差異信息不符合場景挖掘條件,則將所述階段訓練完成的分類模型作為訓練完成的分類模型;
其中,依據所述訓練數據對分類模型執行訓練,得到階段訓練完成的分類模型,包括:
對所述訓練數據進行聚類分析,確定多個訓練類簇;
確定訓練類簇對應的場景類別,將所述訓練類簇中文本標注為所述場景類別;
采用標注的文本數據訓練分類模型,得到階段訓練完成的分類模型。
2.根據權利要求1所述的分類模型訓練方法,其特征在于,基于所述訓練數據確定差異信息,包括:
對不同場景類別對應訓練類簇的文本進行分析,確定差異信息。
3.根據權利要求1所述的分類模型訓練方法,其特征在于,所述依據所述訓練數據和階段訓練完成的分類模型更新訓練數據,包括:
將標注的文本數據輸入到階段訓練完成的分類模型中,進行特征提取,得到對應的特征文本;
采用所述特征文本作為訓練數據。
4.根據權利要求1所述的分類模型訓練方法,其特征在于,所述對所述訓練數據進行聚類分析,確定多個訓練類簇,包括:
將所述訓練數據輸入到第一聚類模型中進行第一聚類分析,輸出多個訓練類簇,其中,所述訓練類簇的數量通過所述第一聚類模型預先設定。
5.根據權利要求4所述的分類模型訓練方法,其特征在于,所述將所述訓練數據輸入到第一聚類模型中進行第一聚類分析,輸出多個訓練類簇,包括:
對所述訓練數據進行詞語劃分,確定出對應的若干個文本分詞;
將若干個文本分詞分別轉換為文本詞向量或文本TFIDF值;
將若干個文本詞向量或文本TFIDF值輸入到第一聚類模型中進行第一聚類分析,輸出若干個訓練類簇。
6.根據權利要求5所述的分類模型訓練方法,其特征在于,所述將若干個文本分詞分別轉換為文本TFIDF值,包括:
對若干個文本分詞進行命名實體識別,確定出若干個文本分詞中的目標命名實體,所述目標命名實體至少包括以下其中一種:人名、機構名以及地名;
采用目標關鍵詞對目標命名實體進行替換,并將經過替換后的若干個文本分詞分別轉換為文本TFIDF值。
7.根據權利要求2所述的分類模型訓練方法,其特征在于,所述方法還包括:
提供一展示頁面對所述差異信息進行展示,并獲取基于所述展示頁面的挖掘操作信息;
依據所述挖掘操作信息,確定所述階段訓練完成的分類模型是否符合場景挖掘條件。
8.一種文本挖掘方法,其特征在于,所述方法包括:
接收對話信息,從所述對話信息中獲取第一用戶的對話文本;
將所述對話文本輸入到分類模型中進行分類識別,確定出對應的目標場景類別,所述分類模型通過訓練數據執行訓練,得到階段訓練完成的分類模型,并基于所述訓練數據確定差異信息,判斷所述階段訓練完成的分類模型是否符合場景挖掘條件,依據判斷結果確定是否更新訓練數據繼續訓練階段訓練完成的分類模型得到;
查詢所述目標場景類別對應的目標回復文本;
采用所述目標回復文本作為第二用戶的對話文本,反饋所述第一用戶的對話文本。
9.一種電子設備,包括:
一個或多個處理器;
存儲器;
一個或多個程序,其中所述一個或多個程序被存儲在所述存儲器中并被配置為由所述一個或多個處理器執行,所述一個或多個程序配置用于執行權利要求1-8中任一所述的方法。
10.一種計算機可讀存儲介質,存儲與電子設備結合使用的計算機程序,所述計算機程序可被處理器執行以完成權利要求1-8中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210372329.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種風筒風量開停傳感器支架
- 下一篇:一種安全穩定的垂直運輸裝置及其運載方法





