[發明專利]基于embedding方法的意圖識別算法在審
| 申請號: | 201910141203.5 | 申請日: | 2019-02-26 |
| 公開(公告)號: | CN109933663A | 公開(公告)日: | 2019-06-25 |
| 發明(設計)人: | 孫曉明 | 申請(專利權)人: | 上海凱岸信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海海貝律師事務所 31301 | 代理人: | 范海燕 |
| 地址: | 201808 上海市嘉定區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 內存空間 意圖識別 算法 分類問題 排序問題 輸入文本 損失函數 向量空間 映射 穩定性和魯棒性 占用 相似度對比 通用數據 同一空間 用戶意圖 詞向量 語句 嵌入 轉換 申請 轉化 | ||
1.一種基于embedding方法的意圖識別算法,其特征在于:基于特定領域內的數據,將用戶的輸入文本與意圖映射到相同的向量空間,使得用戶的輸入文本與用戶意圖可以在同一空間內進行相似度對比,將分類問題轉化了排序問題;通過將語句和意圖映射到相同的向量空間將意圖分類問題轉換為意圖排序問題;對論文中的損失函數進行修改,使得新的損失函數具有更好的穩定性和魯棒性。
2.如權利要求1所述的基于embedding方法的意圖識別算法,其特征在于:首先,將語料庫中的所有語句都通過神經網絡映射到一個新的向量空間中,網絡輸入層的維度為語料中所有語句分詞后詞語的數量,隱藏層和輸出層的維度為可調節的超參數;然后,將所有意圖也都映射到與上步相同的向量空間,輸入層的維度與意圖的數量相同,輸出層的維度與之前網絡的輸出層相同。
3.如權利要求2所述的基于embedding方法的意圖識別算法,其特征在于:為了訓練模型,需要在新的向量空間中對語句與意圖進行比較,具體的是最小化如下損失函數:
其中E+是正例集合,E-是負例集合,是從負例集合中采用負采樣方法選出的負樣本,該損失函數對負例樣本采用了取最大運算操作,只考慮輸入語句和所有負樣本相似度的最大值,而原損失函數是考慮輸入語句和所有負樣本相似度的平均值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海凱岸信息科技有限公司,未經上海凱岸信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910141203.5/1.html,轉載請聲明來源鉆瓜專利網。





