[發明專利]用于文本分類的數據處理方法、數據處理裝置和電子設備在審
| 申請號: | 201810483271.5 | 申請日: | 2018-05-18 |
| 公開(公告)號: | CN108763384A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 楊鵬 | 申請(專利權)人: | 北京慧聞科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙) 11481 | 代理人: | 徐丁峰 |
| 地址: | 100000 北京市西城區西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 初始文本數據 轉換文本數據 文本分類 狀態序列 數據處理 數據處理裝置 類別標簽 特征表示 詞向量 電子設備提供 邏輯回歸模型 文本數據挖掘 注意力機制 電子設備 特征向量 文本數據 主觀信息 記憶層 求和 權重 加權 詞匯 架構 分類 轉換 | ||
1.一種用于文本分類的數據處理方法,包括:
獲取初始文本數據;
對所述初始文本數據中的詞匯進行詞向量轉換以獲得以詞向量為基礎的轉換文本數據;
通過雙向長短期記憶層處理所述轉換文本數據以獲得所述轉換文本數據對應的隱狀態序列;
以雙層注意力機制獲得所述隱狀態序列的不同特征向量的權重值并加權求和以獲得所述隱狀態序列的特征表示;以及
以用于多分類的邏輯回歸模型處理所述特征表示以獲得所述初始文本數據的類別標簽。
2.如權利要求1所述的用于文本分類的數據處理方法,其中,所述雙層注意力機制用于:
以參數矩陣對輸入特征向量進行非線性轉換以獲得中間結果;以及
將所述中間結果與轉移向量的轉置進行矩陣計算并使用softmax函數進行歸一化,以得到所述特征向量的權重值的分布。
3.如權利要求1所述的用于文本分類的數據處理方法,其中,獲取初始文本數據進一步包括以下的至少其中之一:
對所述初始文本數據進行去重;
對所述初始文本數據進行去噪聲;以及
轉化用戶數據中的非文本數據為文本數據。
4.如權利要求1所述的用于文本分類的數據處理方法,其中,所述用于多分類的邏輯回歸模型是Softmax分類模型,且所述Softmax分類模型具有可設置的類別標簽數量。
5.如權利要求4所述的用于文本分類的數據處理方法,其中,以用于多分類的邏輯回歸模型處理所述特征表示以獲得所述初始文本數據的類別標簽包括:
基于所述特征表示以Softmax分類模型獲得所述初始文本數據中每一句子對應的類別標簽的概率分布;以及
選擇概率最大的類別標簽為所述初始文本數據中該句子的類別標簽,以獲得所述初始文本數據的類別標簽。
6.如權利要求1至5任意一項所述的用于文本分類的數據處理方法,其中,所述用戶數據為用戶微博數據,所述類別標簽為情感標簽。
7.如權利要求6所述的用于文本分類的數據處理方法,其中,所述用戶微博數據中的所述非文本數據包括表情圖片和表情符號。
8.一種用于文本分類的數據處理裝置,包括:
文本數據獲取單元,用于獲取初始文本數據;
詞向量轉換單元,用于對所述初始文本數據中的詞匯進行詞向量轉換以獲得以詞向量為基礎的轉換文本數據;
隱狀態序列獲取單元,用于通過雙向長短期記憶層處理所述轉換文本數據以獲得所述轉換文本數據對應的隱狀態序列;
特征表示獲取單元,用于以雙層注意力機制獲得所述隱狀態序列的不同特征向量的權重值并加權求和以獲得所述隱狀態序列的特征表示;以及
文本類別獲取單元,用于以用于多分類的邏輯回歸模型處理所述特征表示以獲得所述初始文本數據的類別標簽。
9.一種電子設備,包括:
處理器;以及
存儲器,在所述存儲器中存儲有計算機程序指令,所述計算機程序指令在被所述處理器運行時使得所述處理器執行如權利要求1-7中任一項所述的用于文本分類的數據處理方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序指令,當所述計算機程序指令被計算裝置執行時,可操作來執行如權利要求1-7中任一項所述的用于文本分類的數據處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京慧聞科技發展有限公司,未經北京慧聞科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810483271.5/1.html,轉載請聲明來源鉆瓜專利網。





