[發明專利]一種改進的語義意圖識別方法以及LSTM構架系統在審
| 申請號: | 202010693872.6 | 申請日: | 2020-07-17 |
| 公開(公告)號: | CN111914547A | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 張宗世;汪溪;張世俠 | 申請(專利權)人: | 深圳宜搜天下科技股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市舜立知識產權代理事務所(普通合伙) 44335 | 代理人: | 侯藝 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 語義 意圖 識別 方法 以及 lstm 構架 系統 | ||
本發明公開了一種改進的語義意圖識別方法以及LSTM構架系統,包括以下步驟:獲取訓練語料;中文分詞步驟;去除停用詞及標點符號步驟;詞向量計算步驟;根據訓練語料中特征詞的數量n以及每一特征詞的詞向量維度m,生成對應的m*n的詞向量矩陣,將該詞向量矩陣輸入至疊加式LSTM架構以對所述訓練語料進行學習訓練;所述疊加式LSTM架構由多個LSTM層疊加而成,首個LSTM層對所述詞向量矩陣進行學習訓練,生成學習訓練后的第一特征數值矩陣,該第一特征數值矩陣作為下一個LSTM層的輸入,最后一個LSTM層對上一個LSTM層輸出的特征數值矩陣進行學習訓練,從而輸出經過學習訓練后的第二特征數值矩陣;將第二特征數值矩陣通過外接的softmax函數對其進行分類。
技術領域
本發明涉及一種改進的語義意圖識別方法以及LSTM構架系統。
背景技術
在自然語言處理領域中,意圖識別是一種理解語義的直接方式。它主要是通過分類的辦法將文本分到相應的意圖種類,這在互聯網搜索引擎和智能問答系統中都起著很重要的作用。簡單來講,就是當用戶輸入一句話或者一段短文本時,意圖識別系統可以準確識別出它是屬于哪個領域的問題,然后分配給相應的領域智能機器人等相關模塊進行后續處理,這在當前眾多問題分類的情況下,可以顯著提升問題匹配的準確率。現有技術主要提供了如下方法:
1.基于詞典以及模版規則的方法:不同的意圖會有的不同的領域詞典,比如商品名、地名、歌曲名等。我們根據用戶的意圖和詞典的匹配程度或者重合程度來進行判斷,最簡單的一個規則是將該文本判別給與詞典重合程度高的類別。但這個工作的關鍵是每個類別領域詞典必須得做地足夠完備。
2.基于機器學習模型的方法:這種主要是通過機器學習及深度學習的方式,對已標注好的領域的語料進行訓練學習,得到一個意圖識別的模型。利用該模型,當再輸入一個測試集時,它能快速地預測出該語料對應的分類,并提供對應的置信度。使用這種方式的一個好處就是,在語料不斷豐富后,模型的準確度會不斷提升。本發明主要介紹的就是采用深度學習的這種方式進行意圖識別。
請參見圖1,LSTM(Long Short-Term Memory)長短期記憶網絡是一種時間循環神經網絡,亦是一種特殊的RNN。RNN(Recurrent Neural Network)是一類以序列(sequence)數據為輸入,在序列的演進方向進行遞歸(recursion)且所有循環單元按鏈式連接的遞歸神經網絡。而LSTM主要是為了解決一般的RNN存在的長期依賴問題而被專門設計出來,在很多領域方向上,它比標準的RNN學習網絡表現得更好。
發明內容
針對上述現有技術的不足,本發明所要解決的技術問題是:提供了能夠提高訓練語料的準確度、進一步提高意圖分別識別的準確率的一種改進的語義意圖識別方法以及LSTM構架系統。
為解決上述技術問題,本發明采用的一個技術方案是:提供一種改進的語義意圖識別方法,包括以下步驟:
獲取訓練語料;
中文分詞:對獲取到的訓練語料進行中文分詞;
去除停用詞及標點符號:去除訓練語料中的停用詞及符號,從而得到訓練語料的若干特征詞;
詞向量計算:計算所述訓練語料中每一個特征詞的詞向量,從而得到每一個特征詞的詞向量;
根據所述訓練語料中特征詞的數量n以及每一特征詞的詞向量維度m,生成對應的m*n的詞向量矩陣,將該詞向量矩陣輸入至疊加式LSTM架構以對所述訓練語料進行學習訓練;其中,所述疊加式LSTM架構由多個LSTM層疊加而成,首個LSTM層對所述詞向量矩陣進行學習訓練,生成學習訓練后的第一特征數值矩陣,該首個LSTM層學習訓練后的第一特征數值矩陣作為下一個LSTM層的輸入,最后一個LSTM層對上一個LSTM層輸出的特征數值矩陣進行學習訓練,從而輸出經過學習訓練后的第二特征數值矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳宜搜天下科技股份有限公司,未經深圳宜搜天下科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010693872.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雙耳節拍低頻音波脈沖的制作方法
- 下一篇:壁紙顯示方法、裝置及設備





