[發明專利]一種文本分類方法以及文本分類裝置有效
| 申請號: | 201711441846.9 | 申請日: | 2017-12-27 |
| 公開(公告)號: | CN108304468B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 佘蕭寒;姜夢曉;萬四爽;費志軍;王宇;張莉敏;張琦;邱雪濤;樂旭;劉想 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/30;G06K9/62 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 臧霽晨;楊美靈 |
| 地址: | 200135 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 以及 裝置 | ||
本發明涉及一種文本分類方法以及文本分類裝置。該方法包括下述步驟:NLP預處理步驟,對用戶對話文字進行自然語言處理方法的分析,得到關于該用戶對話文字的詞集合和語義標注結果;多維度特征選擇步驟,對于所述詞集合和語義標注結果按照多種規則組合,得到用戶對話文字所包含的語義信息的向量化表征形式;以及分類步驟,對于所述多維度特征選擇步驟得到的用戶對話分類計算概率估計值。根據本發明的文本分類方法以及文本分類系統,能夠整合統計和深度學習方法的優勢,通過多維度特征選擇實現面向客戶需求的文本分類解決方案。
技術領域
本發明涉及文本處理技術,具體涉及一種文本分類方法以及文本分類裝置。
背景技術
現階段有關文本分類技術的實現方案,主要分為統計學習方法和深度學習方法。前者主要以特征選擇方法為主,通過諸如TF-IDF、PMI、卡方值等指標對文本的詞、句級別特征進行選擇,得到代表文本的特征向量,并用機器學習的方法得出該特征向量之于各標簽的概率,作為最終的分類標準;后者則以模型構建為主,將文本的離散信息作為輸入,通過多層神經網絡的串、并聯結構,輔以反向傳播算法更新網絡權重,直接得到該文本之于各標簽的概率。
然而,無論是統計學習方法或是深度學習方法,都有其缺陷。前者對特征選擇的過于依賴導致后續算法的提升空間有限,且離散化的特征常會導致諸如數據稀疏、語義鴻溝等問題;后者則是黑盒結構,端到端的學習方法難以泛化,也很難實現領域遷移,極其依賴訓練數據的規模。
發明內容
鑒于所述問題,本發明旨在提供一種能夠整合統計學習方法和深度學習方法的基于多維度特征選擇的文本分類方法。
本發明的文本分類方法,其特征在于,包括下述步驟:
NLP預處理步驟,對用戶對話文字進行自然語言處理方法的分析,得到關于該用戶對話文字的詞集合和語義標注結果;以及
多維度特征選擇步驟,對于所述詞集合和語義標注結果按照多種規則組合,得到用戶對話文字所包含的語義信息的向量化表征形式。
優選地,所述NLP預處理步驟包括下述子步驟:
將用戶對話文字以詞為單位進行分詞和詞性標注并得到詞集合和語義標注結果,其中,所述自然語言處理方法使用LTP工具包實現;以及
根據停用詞詞表,去除所述詞集合中的停用詞,其中,所述停用詞詞表是根據訓練語料中的分詞和詞性標注結果將出現次數過高的虛詞作為停用詞而生成。
優選地,所述多維度特征選擇步驟包括下述子步驟:
抽取n-gram離散特征的子步驟;
抽取依存三元組特征的子步驟;以及
抽取WE分布式特征的子步驟。
優選地,所述抽取n-gram離散特征的子步驟包括:
從所述NLP預處理步驟得到的用戶對話詞集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代單詞,Unigram、Bigram、Trigram分別指代一、二、三個單詞連續出現的情形;以及
根據n-gram索引表,將n-gram離散特征向量中的對應位置置1,其中,根據訓練語料中的n-gram統計結果,將出現次數高的gram添加到gram索引表中。
優選地,所述抽取依存三元組特征的子步驟包括:
將去除了所述詞集合中的停用詞的詞集合以句為單位進行依存句法分析,其中,依存句法分析使用LTP工具包實現;以及
根據依存關系三元組索引表,將依存關系三元組特征向量中的對應位置置1,其中,根據是否包含客服業務的關鍵詞,由訓練語料中的依存關系三元組生成對應的索引表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711441846.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于文本間匹配的方法
- 下一篇:用于字符串模糊匹配的方法和裝置





