[發明專利]文本分類的方法、裝置、設備及存儲介質在審
| 申請號: | 201910670458.0 | 申請日: | 2019-07-23 |
| 公開(公告)號: | CN110377691A | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 華容;俞濤 | 申請(專利權)人: | 上海應用技術大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/35;G06F17/27;G06N3/08 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200235 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 標準格式 存儲介質 分詞結果 神經網絡 雙向循環 向量索引 詞向量 文本 分詞處理 分類結果 分類效率 句子 替換 分類 預測 | ||
本發明提供了一種文本分類的方法、裝置、設備及存儲介質,該方法包括:對文本進行分詞處理,得到分詞結果;將分詞結果輸入Bert模型,得到標準格式的向量索引;將標準格式的向量索引作為雙向循環神經網絡LSTM的輸入,得到文本的分類結果。本發明通過詞和句子的結構特征進行詞向量模型的建立,利用Bert模型替換雙向循環神經網絡LSTM的詞向量輸入來提高文本分類預測的精度,分類效率和分類精度更高。
技術領域
本發明涉及自然語言處理技術領域,具體地,涉及文本分類的方法、裝置、設備及存儲介質。
背景技術
隨著機器學習技術不斷發展,機器學習技術在自然語言處理等領域的應用也越來越頻繁,基于機器學習的文本自動分類是近年來自然語言處理領域中非常熱門的一個研究方向,所謂的文本自動分類是指在給定分類體系的前提下,利用機器學習的方式來對文本的內容進行分析,從而自動確定文本類別的過程。
機器學習過程需要獲得相應的文本特征,現有技術提供的技術方案通常是利用深度學習方法自動從文本的原始數據中提取文本特征。但是,基于深度學習方法提取文本特征時需要大量的原始數據,而在實際的文本分類過程中,往往有一些類別的文本的數據量很少,導致機器學習的泛化能力不足,影響文本分類的準確性。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種文本分類的方法、裝置、設備及存儲介質。
第一方面,本發明提供的一種文本分類的方法,包括:
對文本進行分詞處理,得到分詞結果;
將分詞結果輸入Bert模型,得到標準格式的向量索引;
將標準格式的向量索引作為雙向循環神經網絡LSTM的輸入,得到文本的分類結果。
可選地,對文本進行分詞處理,得到分詞結果,包括:
獲取領域相關的訓練文本;
通過分詞工具對所述訓練文本進行分詞處理,以去除停用詞;所述停用詞包括:標點符號、數學符號、特殊符號。
可選地,將分詞結果輸入Bert模型,得到標準格式的向量索引,包括:
依次判斷分詞結果是否在預設的詞表中存在;
若存在,則將所述分詞結果對應的向量元素置1;
若不存在,則將所述分詞結果對應的向量元素置0,直到將所有分詞結果轉換為向量元素,得到初始向量索引;
通過添加向量元素來調整所述初始向量索引的向量長度,得到標準格式的向量索引。
本實施例中,Bert內置詞表如“我們這些路癡走啊走,好不容易找到了飯店的西門...”,輸入的句子如“我們,你們,走,西門,的,吃飯,旅游,找到了...”,通過Bert模型轉化為詞向量為[1,0,1,1,1,0,0,1...],詞向量中1代表輸入句子中的詞在詞表中存在,0代表輸入句子中的詞在詞表中不存在,如例子中輸入的句子種“我們”在詞表中存在,所以為1,“你們”在詞表中不存在,所以為0。
Bert模型輸出的詞向量調整詞向量的長度,比如上例中輸出詞向量[1,0,1,1,1,0,0,1...],在其左右添加0,如[0,0,0,0,1,0,1,1,1,0,0,1,0,0,0,0],調整為適當長度作為雙向LSTM的輸入。
可選地,在將標準格式的向量索引作為雙向循環神經網絡LSTM的輸入之前,還包括:
用深度學習平臺Keras搭建雙向循環神經網絡LSTM模型;其中,所述雙向循環神經網絡LSTM模型的訓練參數設置為False,所述標準格式的向量索引輸入全連接層,輸出文本的分類結果。
可選地,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海應用技術大學,未經上海應用技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910670458.0/2.html,轉載請聲明來源鉆瓜專利網。





