[發明專利]文本分類的方法、裝置、設備及存儲介質在審
| 申請號: | 201910670458.0 | 申請日: | 2019-07-23 |
| 公開(公告)號: | CN110377691A | 公開(公告)日: | 2019-10-25 |
| 發明(設計)人: | 華容;俞濤 | 申請(專利權)人: | 上海應用技術大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/35;G06F17/27;G06N3/08 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200235 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 標準格式 存儲介質 分詞結果 神經網絡 雙向循環 向量索引 詞向量 文本 分詞處理 分類結果 分類效率 句子 替換 分類 預測 | ||
1.一種文本分類的方法,其特征在于,包括:
對文本進行分詞處理,得到分詞結果;
將分詞結果輸入Bert模型,得到標準格式的向量索引;
將標準格式的向量索引作為雙向循環神經網絡LSTM的輸入,得到文本的分類結果。
2.根據權利要求1所述的文本分類的方法,其特征在于,對文本進行分詞處理,得到分詞結果,包括:
獲取領域相關的訓練文本;
通過分詞工具對所述訓練文本進行分詞處理,以去除停用詞;所述停用詞包括:標點符號、數學符號、特殊符號。
3.根據權利要求1所述的文本分類的方法,其特征在于,將分詞結果輸入Bert模型,得到標準格式的向量索引,包括:
依次判斷分詞結果是否在預設的詞表中存在;
若存在,則將所述分詞結果對應的向量元素置1;
若不存在,則將所述分詞結果對應的向量元素置0,直到將所有分詞結果轉換為向量元素,得到初始向量索引;
通過添加向量元素來調整所述初始向量索引的向量長度,得到標準格式的向量索引。
4.根據權利要求1所述的文本分類的方法,其特征在于,在將標準格式的向量索引作為雙向循環神經網絡LSTM的輸入之前,還包括:
用深度學習平臺Keras搭建雙向循環神經網絡LSTM模型;其中,所述雙向循環神經網絡LSTM模型的訓練參數設置為False,所述標準格式的向量索引輸入全連接層,輸出文本的分類結果。
5.根據權利要求4所述的文本分類的方法,其特征在于,還包括:
調用深度學習平臺Keras,在LSTM模型中定義權重存儲函數和自動降學習率輔助函數;其中,所述權重存儲函數用于保存LSTM模型的權重;自動降學習率輔助函數用于在訓練周期增加時,自主減低訓練時間。
6.根據權利要求4所述的文本分類的方法,其特征在于,還包括:
調用深度學習平臺Keras,內置定義預測函數來預測文本的極性分類;
當預測函數輸出的得分大于0.5時,判斷文本的分類為正例;
當預測函數輸出的得分不大于0.5時,判斷文本的分類為負例。
7.一種文本分類的裝置,其特征在于,包括:
分詞模塊,用于對文本進行分詞處理,得到分詞結果;
處理模塊,用于將分詞結果輸入Bert模型,得到標準格式的向量索引;
分類模塊,用于將標準格式的向量索引作為雙向循環神經網絡LSTM的輸入,得到文本的分類結果。
8.根據權利要求7所述的文本分類的裝置,其特征在于,所述分詞模塊,具體用于:
獲取領域相關的訓練文本;
通過分詞工具對所述訓練文本進行分詞處理,以去除停用詞;所述停用詞包括:標點符號、數學符號、特殊符號。
9.一種文本分類的設備,其特征在于,包括:處理器和存儲器;存儲器中存儲有所述處理器的可執行指令;其中,所述處理器配置為經由執行所述可執行指令來執行權利要求1-6任一項所述的文本分類的方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現權利要求1-6任一項所述的文本分類的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海應用技術大學,未經上海應用技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910670458.0/1.html,轉載請聲明來源鉆瓜專利網。





