[發明專利]一種意圖識別模型生成方法、裝置、設備及存儲介質在審
| 申請號: | 202110494941.5 | 申請日: | 2021-05-07 |
| 公開(公告)號: | CN115309853A | 公開(公告)日: | 2022-11-08 |
| 發明(設計)人: | 樂雨泉;趙宇明;陳蒙 | 申請(專利權)人: | 京東科技控股股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/35;G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 丁曼曼 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 意圖 識別 模型 生成 方法 裝置 設備 存儲 介質 | ||
1.一種意圖識別模型生成方法,其特征在于,包括:
獲取樣本語句和與所述樣本語句對應的樣本意圖;
確定所述樣本語句的詞特征序列以及詞共現關系;
基于所述詞共現關系、所述詞特征序列以及所述樣本意圖訓練得到意圖識別模型。
2.根據權利要求1所述的意圖識別模型生成方法,其特征在于,所述確定所述樣本語句的詞特征序列以及詞共現關系,包括:
對所述樣本語句執行分詞操作得到詞序列;
基于所述詞序列生成所述詞特征序列以及所述詞共現關系。
3.根據權利要求2所述的意圖識別模型生成方法,其特征在于,基于所述詞序列生成所述詞共現關系,包括:
基于滑動窗口算法獲取所述詞序列在各窗口滑動時刻下,同時處于窗口內的目標詞元素;
建立各所述窗口滑動時刻下相應目標詞元素之間的所述詞共現關系。
4.根據權利要求2所述的意圖識別模型生成方法,其特征在于,基于所述詞序列生成所述詞特征序列,包括:
基于語言模型對所述詞序列中的詞元素執行特征提取得到所述詞特征序列。
5.根據權利要求1所述的意圖識別模型生成方法,其特征在于,所述獲取樣本語句和與所述樣本語句對應的樣本意圖,包括:
提取所述樣本語句集合中的各所述樣本語句;
對所述各所述樣本語句執行分詞操作得到相應的詞序列;
基于各所述樣本語句生成的詞序列生成相應的待聚類詞特征序列;
將相似度達到預設閾值的所述待聚類詞特征序列劃分至相同的聚類集合;
將對應相同所述聚類集合的所述樣本語句標注相同的所述樣本意圖。
6.根據權利要求5所述的意圖識別模型生成方法,其特征在于,在所述將相似度達到預設閾值的所述待聚類詞特征序列劃分至相同的聚類集合之前,所述方法還包括:
統計所述待聚類詞特征序列的特征累加和;
所述將相似度達到預設閾值的所述待聚類詞特征序列劃分至相同的聚類集合,包括:
將所述特征累加和的相似度達到預設閾值的所述待聚類詞特征序列劃分至相同的所述聚類集合。
7.根據權利要求1至6任意一項所述的意圖識別模型生成方法,其特征在于,所述基于所述詞共現關系、所述詞特征序列以及所述樣本意圖訓練得到意圖識別模型,包括:
基于所述詞共現關系對應的鄰接矩陣、所述詞特征序列以及所述樣本意圖對門控圖神經網絡模型進行訓練,得到所述意圖識別模型。
8.一種語句意圖識別方法,其特征在于,包括:
獲取待識別語句;
通過意圖識別模型對所述待識別語句進行意圖識別操作,得到意圖識別結果;其中,所述意圖識別模型基于樣本語句的詞共現關系、詞特征序列以及與所述樣本語句對應的樣本意圖訓練生成。
9.根據權利要求8所述的語句意圖識別方法,其特征在于,所述意圖識別模型基于樣本語句的詞共現關系、詞特征序列以及與所述樣本語句對應的樣本意圖訓練生成,包括:
所述意圖識別模型基于所述樣本語句的詞共現關系轉化得到的鄰接矩陣、所述樣本語句的詞特征序列以及與所述樣本語句對應的所述樣本意圖,對門控圖神經網絡模型進行訓練生成。
10.根據權利要求8或9所述的語句意圖識別方法,其特征在于,所述詞共現關系基于滑動窗口算法對詞序列進行提取生成;其中,所述詞序列通過對所述樣本語句執行分詞操作得到。
11.根據權利要求8或9所述的語句意圖識別方法,其特征在于,所述詞特征序列基于語言模型對詞序列進行轉化生成;其中,所述詞序列通過對所述樣本語句執行分詞操作得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技控股股份有限公司,未經京東科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110494941.5/1.html,轉載請聲明來源鉆瓜專利網。





