[發(fā)明專利]基于人機對話的意圖識別方法、系統(tǒng)、終端及介質(zhì)在審
| 申請?zhí)枺?/td> | 202210198561.1 | 申請日: | 2022-03-02 |
| 公開(公告)號: | CN114564968A | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設計)人: | 楊磊;王旭東 | 申請(專利權(quán))人: | 上海鈞正網(wǎng)絡科技有限公司 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F16/35;G06N20/00 |
| 代理公司: | 上海文舜致遠專利代理事務所(普通合伙) 31445 | 代理人: | 許紅英 |
| 地址: | 201199 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人機對話 意圖 識別 方法 系統(tǒng) 終端 介質(zhì) | ||
本發(fā)明提供基于人機對話的意圖識別方法、系統(tǒng)、終端及介質(zhì),旨在基于線上用戶歷史特征獲取高置信對話數(shù)據(jù)集和低置信對話數(shù)據(jù)集,并據(jù)以分別構(gòu)建新增標準問訓練數(shù)據(jù)集及已有標準問訓練數(shù)據(jù)集,從而訓練得到意圖識別模型;本發(fā)明能夠使用少量(例如20?50條)標注樣本將線上歷史數(shù)據(jù)標注成訓練數(shù)據(jù),實現(xiàn)了線上意圖識別模型的半自動化更新,能夠有效減少公司對模型訓練樣本標注人員的人力支出,同時提高模型迭代速度,改善知識庫運營人員的產(chǎn)品體驗。
技術領域
本發(fā)明涉及智能客服及機器學習領域,尤其涉及基于人機對話的意圖識別方法、系統(tǒng)、終端及介質(zhì)。
背景技術
目前面向C端的應用軟件為了提高用戶體驗,解決一些售前、售后問題,會有一個智能對話機器人來為用戶提供幫助。任務型智能對話機器人的技術核心是意圖識別,主流的工業(yè)級使用的意圖識別方案為監(jiān)督型任務,即通過人工標注對話類型標簽來實現(xiàn)對用戶表述的意圖識別。這種方案識別效果準確,但是缺點是需要投入大量的人力來對歷史對話進行標注,這樣會造成系統(tǒng)迭代更新速度慢,維護成本高。
發(fā)明內(nèi)容
有鑒于現(xiàn)有技術的上述缺陷,本發(fā)明提供基于人機對話的意圖識別方法、系統(tǒng)、終端及介質(zhì),用于解決現(xiàn)有的意圖識別方案需要投入大量的人力來對歷史對話進行標注,這樣會造成系統(tǒng)迭代更新速度慢,維護成本高。
為實現(xiàn)上述目的,本發(fā)明提供了一種基于人機對話的意圖識別方法,包括:獲取線上用戶歷史特征;基于所述線上用戶歷史特征,篩選高置信對話數(shù)據(jù)集和低置信對話數(shù)據(jù)集;新增若干標準問及對應的相似問,基于所述低置信對話數(shù)據(jù)集得到新增標準問訓練數(shù)據(jù)集;獲取線上已有標準問及對應的相似問,基于所述高置信對話數(shù)據(jù)集得到已有標準問訓練數(shù)據(jù)集;合并所述新增標準問訓練數(shù)據(jù)集和已有標準問訓練數(shù)據(jù)集后得到總訓練集,以進行模型訓練并得到意圖識別模型。
在本發(fā)明的較佳實施方式中,所述基于所述線上用戶歷史特征,篩選高置信對話數(shù)據(jù)集和低置信對話數(shù)據(jù)集,包括:將歷史對話數(shù)據(jù)按照用戶編號聚類為多個對話數(shù)據(jù)集;按照預設過濾規(guī)則對每個所述對話數(shù)據(jù)集進行過濾后得到過濾對話數(shù)據(jù)集;遍歷所述過濾對話數(shù)據(jù)集,根據(jù)用戶對話是否表達不清晰及是否存在多意圖表述對每個所述過濾對話數(shù)據(jù)集進行二次過濾,得到單一意圖用戶表述的對話數(shù)據(jù)集;根據(jù)預設置信分類規(guī)則,將所述單一意圖用戶表述的對話數(shù)據(jù)集分類為高置信對話數(shù)據(jù)集和低置信對話數(shù)據(jù)集。
在本發(fā)明的另一較佳實施方式中,所述預設過濾規(guī)則包括:對于同一用戶編號,若相鄰兩次對話的間隔小于預設時間間隔則僅保留最近一次對話,否則保留全部對話。
在本發(fā)明的另一較佳實施方式中,所述對每個所述過濾對話數(shù)據(jù)集進行二次過濾,包括:設定字符數(shù)高閾值及字符數(shù)低閾值;若用戶對話的字符數(shù)低于所述字符數(shù)低閾值,則判斷當前用戶對話表達不清晰;若用戶對話的字符數(shù)高于所述字符數(shù)高閾值,則判斷當前用戶對話存在多意圖表述。
在本發(fā)明的另一較佳實施方式中,所述基于所述低置信對話數(shù)據(jù)集得到新增標準問訓練數(shù)據(jù)集,包括:基于新增的若干標準問及對應的相似問,訓練得到多個基模型;將所述低置信對話數(shù)據(jù)集分別輸入所述多個基模型中,得到用戶表述對于每個標準問的概率分布,并將大于預設概率閾值的標準問作為當前用戶表述的候選標簽輸出;將全部候選標簽中占比超過預設占比閾值的候選標簽作為當前用戶表述的真實標簽輸出。
在本發(fā)明的另一較佳實施方式中,所述基于所述高置信對話數(shù)據(jù)集得到已有標準問訓練數(shù)據(jù)集,包括:使用線上已有標準問及其對應的相似問來訓練分類器模型;將所述高置信對話數(shù)據(jù)集輸入所述分類器模型中,得到相似問對于每個標準問的分布概率,并將大于預設概率閾值的標準問作為當前相似問的候選標簽輸出;將全部候選標簽中占比超過預設占比閾值的候選標簽作為當前相似問的真實標簽輸出。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海鈞正網(wǎng)絡科技有限公司,未經(jīng)上海鈞正網(wǎng)絡科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210198561.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





