[發明專利]文本意圖分類的方法、裝置和可讀介質在審
| 申請號: | 202110265003.8 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112905795A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 陶民澤 | 申請(專利權)人: | 證通股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 李湘;姜冰 |
| 地址: | 200127 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 意圖 分類 方法 裝置 可讀 介質 | ||
本發明涉及自然語言處理,特別涉及用于文本意圖的分類。按照本發明一個方面的用于生成文本意圖分類器的方法包含下列步驟:獲得訓練數據集,訓練數據集包含多個文本樣本,每個文本樣本包含一個或多個句子;利用訓練數據集對第一神經網絡模型進行預訓練以改善第一神經網絡模型與關聯于訓練數據集的應用領域之間的適配性,其中,第一神經網絡模型配置為對文本樣本中的句子進行語義分類以得到該文本樣本的特征向量;由經過預訓練的第一神經網絡模型生成第二神經網絡模型,其中,第二神經網絡模型的層數少于經過預訓練的第一神經網絡模型的層數;以及將第二神經網絡模型連接到輸出層以生成文本意圖分類器。
技術領域
本發明涉及自然語言處理,特別涉及用于生成文本意圖分類器、用于對文本意圖進行分類的方法、實施該方法的文本分類器以及計算機可讀存儲介質。
背景技術
自然語言理解是人工智能領域的核心課題,其研究的是如何使計算機能夠理解和運用人類的自然語言,從而實現人機之間的自然語言通信。在一個典型的人機對話過程中,計算機根據用戶輸入確定命名實體或者用戶意圖,并且根據實體和意圖作出相應的答復。
在實際應用中,文本歧義性以及文本結構的變化將導致計算機難以準確識別文本的意圖。為了解決上述意圖識別的困難,通常利用機器學習或者深度學習的算法,按照各種意圖對文本進行分類。但是現有的文本意圖分類方法存在以下問題。首先,機器學習模型雖然能夠在小范圍內取得比較高的精確度,但模型的泛化性差,即使對于語義上相近的句子,當具有不同的結構時都可能導致錯誤的分類結果。其次,深度學習模型通常包含大量參數,需要龐大的數據用于模型訓練,而在實際應用中并不總是能滿足這種數據量的需求。再者,眾多的模型參數也會導致模型運行效率低下,訓練成本和使用成本高企。
由上可見,需要提供一種能夠解決上述問題的文本意圖分類方案。
發明內容
本發明的一個目的是提供用于生成文本意圖分類器的方法、用于對文本意圖進行分類的方法、文本分類器和計算機可讀存儲介質,其能夠在確保分類準確率的情況下,同時提高模型運行效率和降低模型的訓練和使用成本。
按照本發明一個方面的用于生成文本意圖分類器的方法包含下列步驟:
獲得訓練數據集,所述訓練數據集包含多個文本樣本,每個文本樣本包含一個或多個句子;
利用所述訓練數據集對第一神經網絡模型進行預訓練以改善所述第一神經網絡模型與關聯于所述訓練數據集的應用領域之間的適配性,其中,所述第一神經網絡模型配置為對文本樣本中的句子進行語義分類以得到該文本樣本的特征向量;
由經過預訓練的第一神經網絡模型生成第二神經網絡模型,其中,第二神經網絡模型的層數少于經過預訓練的第一神經網絡模型的層數;以及
將所述第二神經網絡模型連接到輸出層以生成文本意圖分類器。
優選地,在上述方法中,獲得訓練數據集的步驟包括:
輸入原始訓練數據集;以及
對所述原始訓練數據集中的文本樣本進行預處理以生成所述訓練數據集中的文本樣本,所述預處理包括文本清洗和去除停用詞。
優選地,在上述方法中,所述第一神經網絡模型為下列模型中的一種:BERT模型、XLNET模型和ALBERT模型。
優選地,在上述方法中,利用所述訓練數據集對第一神經網絡模型進行預訓練的步驟包括:
對文本樣本中所包含的句子進行分詞處理;
對所劃分的單詞進行命名實體識別;以及
利用掩碼語言模型來對所述第一神經網絡模型進行微調以得到經過預訓練的第一神經網絡模型,其中,掩碼語言模型中被隨機遮罩的對象為經命名實體識別的單詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于證通股份有限公司,未經證通股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110265003.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種舒適的低焦油卷煙及其制備方法
- 下一篇:一種垃圾分離器及一種清潔設備





