[發明專利]基于embedding方法的意圖識別算法在審
| 申請號: | 201910141203.5 | 申請日: | 2019-02-26 |
| 公開(公告)號: | CN109933663A | 公開(公告)日: | 2019-06-25 |
| 發明(設計)人: | 孫曉明 | 申請(專利權)人: | 上海凱岸信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海海貝律師事務所 31301 | 代理人: | 范海燕 |
| 地址: | 201808 上海市嘉定區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 內存空間 意圖識別 算法 分類問題 排序問題 輸入文本 損失函數 向量空間 映射 穩定性和魯棒性 占用 相似度對比 通用數據 同一空間 用戶意圖 詞向量 語句 嵌入 轉換 申請 轉化 | ||
本發明公開了一種基于embedding方法的意圖識別算法,基于特定領域內的數據,將用戶的輸入文本與意圖映射到相同的向量空間,使得用戶的輸入文本與用戶意圖可以在同一空間內進行相似度對比,將分類問題轉化了排序問題;通過將語句和意圖映射到相同的向量空間將意圖分類問題轉換為意圖排序問題;對論文中的損失函數進行修改,使得新的損失函數具有更好的穩定性和魯棒性;本發明提供的基于embedding方法的意圖識別算法,在通用數據集上預訓練的詞向量需要占用上GB的內存空間,而本申請方案提供的模型由于只是嵌入了所關心的詞和意圖,因此僅需100MB左右的內存空間,占用的內存空間更少。
技術領域
本發明涉及機器學習算法類,尤其涉及一種基于embedding方法的意圖識別算法。
背景技術
目前智能客服中的意圖識別算法一般是選用一個預訓練好的詞向量,對用戶的輸入文本轉換映射為詞向量,用預訓練好的詞向量對用戶輸入語句進行表示,然后選用傳統機器學習算法或深度學習算法進行分類,將意圖識別轉換為一個多分類問題。現有技術的缺點主要有四個:意圖識別的最終效果受詞向量質量的影響非常大,與詞向量的質量相比,選用何種分類算法對最終效果的影響不大;由于詞向量的訓練一般都是在通用數據集上進行,所以特定領域內詞語可能未出現在詞向量中或通用數據集中詞的含義與特定領域內詞的含義有可能不同,導致預訓練的詞向量中并未學習到特定領域內的詞或學習的不準確;在通用數據集上預訓練的詞向量在處理特定領域內的問題時會有大量的詞并未使用,導致內存空間的浪費;在對具有多個意圖的句子進行分類時現有技術不能得到很好的結果。
發明內容
本發明為解決上述技術問題而采用的技術方案是提供一種基于embedding方法的意圖識別算法,其中,具體技術方案為:
基于特定領域內的數據,將用戶的輸入文本與意圖映射到相同的向量空間,使得用戶的輸入文本與用戶意圖可以在同一空間內進行相似度對比,將分類問題轉化了排序問題;通過將語句和意圖映射到相同的向量空間將意圖分類問題轉換為意圖排序問題;對論文中的損失函數進行修改,使得新的損失函數具有更好的穩定性和魯棒性。
上述的基于embedding方法的意圖識別算法,其中:首先,將語料庫中的所有語句都通過神經網絡映射到一個新的向量空間中,網絡輸入層的維度為語料中所有語句分詞后詞語的數量,隱藏層和輸出層的維度為可調節的超參數;然后,將所有意圖也都映射到與上步相同的向量空間,輸入層的維度與意圖的數量相同,輸出層的維度與之前網絡的輸出層相同。
上述的基于embedding方法的意圖識別算法,其中:為了訓練模型,需要在新的向量空間中對語句與意圖進行比較,具體的是最小化如下損失函數:
其中E+是正例集合,E-是負例集合,是從負例集合中采用負采樣方法選出的負樣本,該損失函數對負例樣本采用了取最大運算操作,只考慮輸入語句和所有負樣本相似度的最大值,而原損失函數是考慮輸入語句和所有負樣本相似度的平均值。
本發明相對于現有技術具有如下有益效果:在通用數據集上預訓練的詞向量需要占用上GB的內存空間,而本申請方案提供的模型由于只是嵌入了所關心的詞和意圖,因此僅需100MB左右的內存空間,占用的內存空間更少;此方法的準確性也比使用預訓練詞向量配合分類器的方法更具優勢,特別是在多意圖分類的數據中,傳統方法的F1-score為0.31,本方法的F1-score為0.88。
附圖說明
圖1為基于embedding方法的意圖識別算法的示意圖。
圖2為基于embedding方法的意圖識別算法的示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海凱岸信息科技有限公司,未經上海凱岸信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910141203.5/2.html,轉載請聲明來源鉆瓜專利網。





