[發明專利]多輪對話流程構建方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202110520914.0 | 申請日: | 2021-05-13 |
| 公開(公告)號: | CN113239164B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 高鵬;康維鵬;袁蘭;吳飛;周偉華;高峰;潘晶 | 申請(專利權)人: | 杭州摸象大數據科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F16/33;G06F16/35;G06F40/289;G06F40/295;G06F18/231;G06F18/24;G10L15/22 |
| 代理公司: | 杭州知學知識產權代理事務所(普通合伙) 33356 | 代理人: | 張雯 |
| 地址: | 311121 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輪對 流程 構建 方法 裝置 計算機 設備 存儲 介質 | ||
本發明實施例公開了多輪對話流程構建方法、裝置、計算機設備及存儲介質。所述方法包括:收集對話語料;對所述對話語料進行分詞和識別,以得到識別結果;根據所述識別結果構建問題答案集;根據所述問題答案集采用層次聚類方式構建對話流程樹。通過實施本發明實施例的方法可實現對線上數據進行有效進行自動化構建較高質量對話流程,并通過問答對挖掘方式,挖掘常規問答集。
技術領域
本發明涉及智能問答技術領域,更具體地說是指多輪對話流程構建方法、裝置、計算機設備及存儲介質。
背景技術
在智能對話系統中,問句的正確理解與處理是整個對話交互核心要點,而這需建立在龐大的知識庫基礎上的,目前知識庫構建包括實體詞匯、實體關系、QA(問答,QuestionAnswering)對、相似問句以及對話流程等,基本上采用人工審核與機器統計相結合的方法進行,主要集中在實體詞匯、實體關系、問句的挖掘,而對話流程的自動挖掘構建,在實際應用中做的還非常有限。
而實際生產環境有海量對話語料,例如在銀行系統中,都有集中式的外呼或客服坐席,經過日積月累沉淀積累,匯集下來了海量的對話語料,并且這些語料都是具有非常強烈的銀行領域特性,但是,目前并沒有任何辦法能更深更好地利用起這些對話知識語料,來自動豐富完善智能對話系統知識庫、自動構建具有領域特性對話流程。
因此,有必要設計一種新的方法,實現對線上數據進行有效進行自動化構建較高質量對話流程,并通過問答對挖掘方式,挖掘常規問答集。
發明內容
本發明的目的在于克服現有技術的缺陷,提供多輪對話流程構建方法、裝置、計算機設備及存儲介質。
為實現上述目的,本發明采用以下技術方案:多輪對話流程構建方法,包括:
收集對話語料;
對所述對話語料進行分詞和識別,以得到識別結果;
根據所述識別結果構建問題答案集;
根據所述問題答案集采用層次聚類方式構建對話流程樹。
其進一步技術方案為:所述收集對話語料,包括:
獲取對話錄音文件;
對所述對話錄音文件進行語音識別,以得到對話流數據;
通過爬蟲技術抓取問答對;
整合所述對話流數據以及問答對,以得到對話語料。
其進一步技術方案為:所述對所述對話語料進行分詞和識別,以得到識別結果,包括:
利用Jieba分詞工具對所述對話語料進行分詞和實體識別,以得到識別結果。
其進一步技術方案為:所述根據所述識別結果構建問題答案集,包括:
根據所述識別結果構建用戶問題集;
采用聚類分析方式構建所述用戶問題集對應的機器人應答集;
其中,所述問題答案集包括用戶問題集以及所述用戶問題集對應的機器人應答集。
其進一步技術方案為:所述采用聚類分析方式構建所述用戶問題集對應的機器人應答集,包括:
采用Canopy聚類算法構建所述用戶問題集對應的機器人應答集。
其進一步技術方案為:所述采用Canopy聚類算法構建所述用戶問題集對應的機器人應答集,包括:
確定第一相似閾值以及第二相似閾值;
初始化用戶問題集,并初始化聚類結果集;
隨機選擇一個問題,并創建以所述問題為中心的聚類;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州摸象大數據科技有限公司,未經杭州摸象大數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110520914.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有視覺引導定位功能的注塑機械手
- 下一篇:全自動化角度分選裝配體





