[發明專利]一種文本分類方法以及文本分類裝置有效

申請號：	201711441846.9	申請日：	2017-12-27
公開（公告）號：	CN108304468B	公開（公告）日：	2021-12-07
發明（設計）人：	佘蕭寒;姜夢曉;萬四爽;費志軍;王宇;張莉敏;張琦;邱雪濤;樂旭;劉想	申請（專利權）人：	中國銀聯股份有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F16/36;G06F40/30;G06K9/62
代理公司：	中國專利代理(香港)有限公司 72001	代理人：	臧霽晨;楊美靈
地址：	200135 上海***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文本分類方法以及裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及一種文本分類方法以及文本分類裝置。該方法包括下述步驟：NLP預處理步驟，對用戶對話文字進行自然語言處理方法的分析，得到關于該用戶對話文字的詞集合和語義標注結果；多維度特征選擇步驟，對于所述詞集合和語義標注結果按照多種規則組合，得到用戶對話文字所包含的語義信息的向量化表征形式；以及分類步驟，對于所述多維度特征選擇步驟得到的用戶對話分類計算概率估計值。根據本發明的文本分類方法以及文本分類系統，能夠整合統計和深度學習方法的優勢，通過多維度特征選擇實現面向客戶需求的文本分類解決方案。

技術領域

本發明涉及文本處理技術，具體涉及一種文本分類方法以及文本分類裝置。

背景技術

現階段有關文本分類技術的實現方案，主要分為統計學習方法和深度學習方法。前者主要以特征選擇方法為主，通過諸如TF-IDF、PMI、卡方值等指標對文本的詞、句級別特征進行選擇，得到代表文本的特征向量，并用機器學習的方法得出該特征向量之于各標簽的概率，作為最終的分類標準；后者則以模型構建為主，將文本的離散信息作為輸入，通過多層神經網絡的串、并聯結構，輔以反向傳播算法更新網絡權重，直接得到該文本之于各標簽的概率。

然而，無論是統計學習方法或是深度學習方法，都有其缺陷。前者對特征選擇的過于依賴導致后續算法的提升空間有限，且離散化的特征常會導致諸如數據稀疏、語義鴻溝等問題；后者則是黑盒結構，端到端的學習方法難以泛化，也很難實現領域遷移，極其依賴訓練數據的規模。

發明內容

鑒于所述問題，本發明旨在提供一種能夠整合統計學習方法和深度學習方法的基于多維度特征選擇的文本分類方法。

本發明的文本分類方法，其特征在于，包括下述步驟：

NLP預處理步驟，對用戶對話文字進行自然語言處理方法的分析，得到關于該用戶對話文字的詞集合和語義標注結果；以及

多維度特征選擇步驟，對于所述詞集合和語義標注結果按照多種規則組合，得到用戶對話文字所包含的語義信息的向量化表征形式。

優選地，所述NLP預處理步驟包括下述子步驟：

將用戶對話文字以詞為單位進行分詞和詞性標注并得到詞集合和語義標注結果，其中，所述自然語言處理方法使用LTP工具包實現；以及

根據停用詞詞表，去除所述詞集合中的停用詞，其中，所述停用詞詞表是根據訓練語料中的分詞和詞性標注結果將出現次數過高的虛詞作為停用詞而生成。

優選地，所述多維度特征選擇步驟包括下述子步驟：

抽取n-gram離散特征的子步驟；

抽取依存三元組特征的子步驟；以及