[發明專利]用于文本分類的數據處理方法、數據處理裝置和電子設備在審
| 申請號: | 201810483271.5 | 申請日: | 2018-05-18 |
| 公開(公告)號: | CN108763384A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 楊鵬 | 申請(專利權)人: | 北京慧聞科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙) 11481 | 代理人: | 徐丁峰 |
| 地址: | 100000 北京市西城區西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 初始文本數據 轉換文本數據 文本分類 狀態序列 數據處理 數據處理裝置 類別標簽 特征表示 詞向量 電子設備提供 邏輯回歸模型 文本數據挖掘 注意力機制 電子設備 特征向量 文本數據 主觀信息 記憶層 求和 權重 加權 詞匯 架構 分類 轉換 | ||
提供了用于文本分類的數據處理方法、數據處理裝置和電子設備。該用于文本分類的數據處理方法包括:獲取初始文本數據;對所述初始文本數據中的詞匯進行詞向量轉換以獲得以詞向量為基礎的轉換文本數據;通過雙向長短期記憶層處理所述轉換文本數據以獲得所述轉換文本數據對應的隱狀態序列;以雙層注意力機制獲得所述隱狀態序列的不同特征向量的權重值并加權求和以獲得所述隱狀態序列的特征表示;以及,以用于多分類的邏輯回歸模型處理所述特征表示以獲得所述初始文本數據的類別標簽。這樣,可以以特定的處理架構基于用戶的文本數據挖掘出所述文本數據的類別標簽,以更為全面和準確地獲取用戶所要表達的主觀信息。
技術領域
本發明總的來說涉及數據處理領域,特別是涉及用于文本分類的數據處理方法、數據處理裝置和電子設備。
背景技術
隨著社交媒體的發展,越來越多的用戶使用各類社交平臺,向他人傳遞信息、分享自己對某個事件的觀點和評價,以及,發布自己感興趣的內容等。以微博為例,微博是基于社交關系來進行信息傳播的媒體平臺,允許用戶采用發布、分享、回復、轉發等方式傳播圖片、視頻和文本等信息。盡管分享圖片和視頻在社交網絡中很普遍,但用戶更傾向于使用文本信息來發表對某一事件或商品的看法和評價。
因此,如何基于用戶數據挖掘出用戶對于客觀事物的感受,即,基于用戶數據挖掘出用戶對于客觀事物的主觀意圖,以更為全面地獲取用戶對于特定客觀現實,比如事件或商品所要表達的主觀信息,已逐漸成為當前自然語言處理領域的研究熱點。
所以,需要改進的用于文本分類的數據處理方案。
發明內容
為了解決上述技術問題,提出了本申請。本申請的實施例提供了用于文本分類的數據處理方法、數據處理裝置和電子設備,其可以以特定的處理架構基于用戶的文本數據挖掘出所述文本數據的類別標簽,以更為全面和準確地獲取用戶所要表達的主觀信息。
根據本申請的一方面,提供了一種用于文本分類的數據處理方法,包括:獲取初始文本數據;對所述初始文本數據中的詞匯進行詞向量轉換以獲得以詞向量為基礎的轉換文本數據;通過雙向長短期記憶層處理所述轉換文本數據以獲得所述轉換文本數據對應的隱狀態序列;以雙層注意力機制獲得所述隱狀態序列的不同特征向量的權重值并加權求和以獲得所述隱狀態序列的特征表示;以及,以用于多分類的邏輯回歸模型處理所述特征表示以獲得所述初始文本數據的類別標簽。
在上述用于文本分類的數據處理方法中,所述雙層注意力機制用于:以參數矩陣對輸入特征向量進行非線性轉換以獲得中間結果;以及,將所述中間結果與轉移向量的轉置進行矩陣計算并使用softmax函數進行歸一化,以得到所述特征向量的權重值的分布。
在上述用于文本分類的數據處理方法中,獲取初始文本數據進一步包括以下的至少其中之一:對所述初始文本數據進行去重;對所述初始文本數據進行去噪聲;以及,轉化用戶數據中的非文本數據為文本數據。
在上述用于文本分類的數據處理方法中,所述用于多分類的邏輯回歸模型是Softmax分類模型,且所述Softmax分類模型具有可設置的類別標簽數量。
在上述用于文本分類的數據處理方法中,以用于多分類的邏輯回歸模型處理所述特征表示以獲得所述初始文本數據的類別標簽包括:基于所述特征表示以Softmax分類模型獲得所述初始文本數據中每一句子對應的類別標簽的概率分布;以及,選擇概率最大的類別標簽為所述初始文本數據中該句子的類別標簽,以獲得所述初始文本數據的類別標簽。
在上述用于文本分類的數據處理方法中,所述用戶數據為用戶微博數據,所述類別標簽為情感標簽。
在上述用于文本分類的數據處理方法中,所述用戶微博數據中的所述非文本數據包括表情圖片和表情符號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京慧聞科技發展有限公司,未經北京慧聞科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810483271.5/2.html,轉載請聲明來源鉆瓜專利網。





