[發明專利]一種意圖識別模型生成方法、裝置、設備及存儲介質在審
| 申請號: | 202110494941.5 | 申請日: | 2021-05-07 |
| 公開(公告)號: | CN115309853A | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 樂雨泉;趙宇明;陳蒙 | 申請(專利權)人: | 京東科技控股股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/35;G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 丁曼曼 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 意圖 識別 模型 生成 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種意圖識別模型生成方法、裝置、設備及存儲介質。該方法的步驟包括:獲取樣本語句和與樣本語句對應的樣本意圖;確定樣本語句的詞特征序列以及詞共現關系;基于詞共現關系、詞特征序列以及樣本意圖訓練得到意圖識別模型。意圖識別模型能夠根據待識別語句中所出現的每個詞與其它各詞之間的關聯性,綜合分析待識別語句的語句意圖,進而能夠進一步確保意圖識別模型對于語句意圖分析的準確性。此外,本申請還提供一種意圖識別模型生成裝置、設備及存儲介質,有益效果同上所述。
技術領域
本申請涉及機器學習領域,特別是涉及一種意圖識別模型生成方法、裝置、設備及存儲介質。
背景技術
在包括電商場景在內的網絡業務平臺場景中,智能客服可以隨時根據用戶發起的問題向用戶提供答復,具有高效的工作效率,并且能夠為用戶提供優質的服務質量、標準化的服務流程,因此智能客服扮演著越發重要的角色。
語句意圖識別是智能客服系統中的核心技術,精確的理解用戶意圖能夠有效地提高用戶對智能客服系統的體驗。目前語句意圖識別主要基于機器學習模型的方法實現,但是當前基于機器學習模型進行語句意圖識別時,僅根據語句中相鄰詞與詞之間的序列信息分析語句意圖,并沒有考慮到間隔較遠的詞之間的關聯性,因此難以確保語句意圖分析的準確性。
由此可見,提供一種意圖識別模型生成方法,以相對確保意圖識別模型對語句意圖分析的準確性,是本領域技術人員需要解決的問題。
發明內容
本申請的目的是提供一種意圖識別模型生成方法、裝置、設備及存儲介質,以相對確保意圖識別模型對語句意圖分析的準確性。
為解決上述技術問題,本申請提供一種意圖識別模型生成方法,包括:
獲取樣本語句和與樣本語句對應的樣本意圖;
確定樣本語句的詞特征序列以及詞共現關系;
基于詞共現關系、詞特征序列以及樣本意圖訓練得到意圖識別模型。
優選地,確定樣本語句的詞特征序列以及詞共現關系,包括:
對樣本語句執行分詞操作得到詞序列;
基于詞序列生成詞特征序列以及詞共現關系。
優選地,基于詞序列生成詞共現關系,包括:
基于滑動窗口算法獲取詞序列在各窗口滑動時刻下,同時處于窗口內的目標詞元素;
建立各窗口滑動時刻下相應目標詞元素之間的詞共現關系。
優選地,基于詞序列生成詞特征序列,包括:
基于語言模型對詞序列中的詞元素執行特征提取得到詞特征序列。
優選地,獲取樣本語句和與樣本語句對應的樣本意圖,包括:
提取樣本語句集合中的各樣本語句;
對各樣本語句執行分詞操作得到相應的詞序列;
基于各樣本語句生成的詞序列生成相應的待聚類詞特征序列;
將相似度達到預設閾值的待聚類詞特征序列劃分至相同的聚類集合;
將對應相同聚類集合的樣本語句標注相同的樣本意圖。
優選地,在將相似度達到預設閾值的待聚類詞特征序列劃分至相同的聚類集合之前,方法還包括:
統計待聚類詞特征序列的特征累加和;
將相似度達到預設閾值的待聚類詞特征序列劃分至相同的聚類集合,包括:
將特征累加和的相似度達到預設閾值的待聚類詞特征序列劃分至相同的聚類集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技控股股份有限公司,未經京東科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110494941.5/2.html,轉載請聲明來源鉆瓜專利網。





