[發明專利]文本分類方法、問答系統及對話機器人有效
| 申請號: | 202011218101.8 | 申請日: | 2020-11-04 |
| 公開(公告)號: | CN112417111B | 公開(公告)日: | 2022-08-23 |
| 發明(設計)人: | 黃友福;肖龍源;廖斌 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/35;G06F40/30;G06N20/00 |
| 代理公司: | 廈門仕誠聯合知識產權代理事務所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361009 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 問答 系統 對話 機器人 | ||
1.一種文本分類方法,其特征在于,包括以下步驟:
采用目標模型對驗證集的數據進行預測,得到所述驗證集的初始類別、預測類別及預測分值;其中,所述預測類別或所述初始類別包括類別I和類別Ii,i=1,2....n;
選定類別I作為待優化類別,根據待優化類別I從所述驗證集中抽取出數據集A;其中,所述數據集A的預測類別為類別I;
從所述數據集A中抽取出數據集Ai;其中,所述數據集Ai的初始類別為類別Ii;
根據所述預測分值對所述數據集Ai進行排序,并根據排序結果對所述數據集Ai的預測分值和預測準確率進行統計,得到統計分值Si, i=1,2....n;
將待分類文本輸入所述目標模型進行預測,當輸出的預測類別為類別I、預測分值為S時,計算(S-Si)/(Si),i = 1,2....n;若(S-Si)/(Si)均小于0,則得到所述待分類文本的分類為類別I;若(S-Si)/(Si)中存在大于0的項,則選取使得(S-Si)/(Si)最大的i,得到所述待分類文本的分類為類別Ii;
其中,根據預測分值和預測準確率進行統計得到統計分值Si,是通過對所述數據集Ai中預測分值進行閾值計算,使所述預測分值小于所述統計分值時,該預測分值對應的預測類別的準確率最低;所述統計分值Si的計算方法包括以下步驟:
將數據集Ai根據其預測分值按照從小到大的順序排列;
設Si,n為數據集Ai中的預測分值,分別從數據集Ai中抽取預測分值小于Si,n(n=1,2...len(R))的預測數據;len(R)代表分值序列的長度;
計算當前數據集的準確率,當準確率在Si,n時最低,則取Si,n作為所述統計分值Si。
2.根據權利要求1所述的一種文本分類方法,其特征在于:所述預測分值采用softmax分值,通過對所述目標模型的預測結果應用softmax函數進行歸一化,輸出一個和為1的預測分值序列;通過獲取所述預測分值序列中最大值的位置進而確定最終的預測類別。
3.根據權利要求1所述的一種文本分類方法,其特征在于:所述驗證集的初始類別采用人工標注得到,所述驗證集的預測類別通過所述目標模型對驗證集的數據進行預測得到;并且,進一步根據所述預測類別和所述初始類別的差異,得到驗證損失值;根據所述驗證損失值確定是否停止訓練所述目標模型。
4.根據權利要求1至3任一項所述的一種文本分類方法,其特征在于:所述驗證集的數據為文本的人機對話數據或者語音轉文本的人機對話數據,所述初始類別或所述預測類別為基于語義分析的用戶意圖類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011218101.8/1.html,轉載請聲明來源鉆瓜專利網。





