[發明專利]基于人機對話的意圖識別方法、系統、終端及介質在審
| 申請號: | 202210198561.1 | 申請日: | 2022-03-02 |
| 公開(公告)號: | CN114564968A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 楊磊;王旭東 | 申請(專利權)人: | 上海鈞正網絡科技有限公司 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F16/35;G06N20/00 |
| 代理公司: | 上海文舜致遠專利代理事務所(普通合伙) 31445 | 代理人: | 許紅英 |
| 地址: | 201199 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人機對話 意圖 識別 方法 系統 終端 介質 | ||
1.一種基于人機對話的意圖識別方法,其特征在于,包括:
獲取線上用戶歷史特征;
基于所述線上用戶歷史特征,篩選高置信對話數據集和低置信對話數據集;
新增若干標準問及對應的相似問,基于所述低置信對話數據集得到新增標準問訓練數據集;
獲取線上已有標準問及對應的相似問,基于所述高置信對話數據集得到已有標準問訓練數據集;
合并所述新增標準問訓練數據集和已有標準問訓練數據集后得到總訓練集,以進行模型訓練并得到意圖識別模型。
2.如權利要求1所述基于人機對話的意圖識別方法,其特征在于,所述基于所述線上用戶歷史特征,篩選高置信對話數據集和低置信對話數據集,包括:
將歷史對話數據按照用戶編號聚類為多個對話數據集;
按照預設過濾規則對每個所述對話數據集進行過濾后得到過濾對話數據集;
遍歷所述過濾對話數據集,根據用戶對話是否表達不清晰及是否存在多意圖表述對每個所述過濾對話數據集進行二次過濾,得到單一意圖用戶表述的對話數據集;
根據預設置信分類規則,將所述單一意圖用戶表述的對話數據集分類為高置信對話數據集和低置信對話數據集。
3.如權利要求2所述基于人機對話的意圖識別方法,其特征在于,所述預設過濾規則包括:對于同一用戶編號,若相鄰兩次對話的間隔小于預設時間間隔則僅保留最近一次對話,否則保留全部對話。
4.如權利要求2所述基于人機對話的意圖識別方法,其特征在于,所述對每個所述過濾對話數據集進行二次過濾,包括:設定字符數高閾值及字符數低閾值;若用戶對話的字符數低于所述字符數低閾值,則判斷當前用戶對話表達不清晰;若用戶對話的字符數高于所述字符數高閾值,則判斷當前用戶對話存在多意圖表述。
5.如權利要求1所述基于人機對話的意圖識別方法,其特征在于,所述基于所述低置信對話數據集得到新增標準問訓練數據集,包括:
基于新增的若干標準問及對應的相似問,訓練得到多個基模型;
將所述低置信對話數據集分別輸入所述多個基模型中,得到用戶表述對于每個標準問的概率分布,并將大于預設概率閾值的標準問作為當前用戶表述的候選標簽輸出;
將全部候選標簽中占比超過預設占比閾值的候選標簽作為當前用戶表述的真實標簽輸出。
6.如權利要求1所述基于人機對話的意圖識別方法,其特征在于,所述基于所述高置信對話數據集得到已有標準問訓練數據集,包括:
使用線上已有標準問及其對應的相似問來訓練分類器模型;
將所述高置信對話數據集輸入所述分類器模型中,得到相似問對于每個標準問的分布概率,并將大于預設概率閾值的標準問作為當前相似問的候選標簽輸出;
將全部候選標簽中占比超過預設占比閾值的候選標簽作為當前相似問的真實標簽輸出。
7.如權利要求6所述基于人機對話的意圖識別方法,其特征在于,在得到所述已有標準問訓練數據集后對其進行噪聲過濾,過濾過程包括:
統計各標準問下的所有相似問對于該標準問的概率之和,并求取平均概率值作為該標準問的概率閾值,并將概率低于所述概率閾值的相似問剔除;
校正真實標簽和線上標簽的聯合計數矩陣,以補償剔除部分相似問后的相似問集總數;
對所述聯合計數矩陣進行歸一化處理,得到真實標簽和線上標簽的聯合概率分布;
基于所述聯合概率分布得到噪聲過濾后的已有標準問訓練數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海鈞正網絡科技有限公司,未經上海鈞正網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210198561.1/1.html,轉載請聲明來源鉆瓜專利網。





