[發明專利]一種文本分類方法以及文本分類裝置有效
| 申請號: | 201711441846.9 | 申請日: | 2017-12-27 |
| 公開(公告)號: | CN108304468B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 佘蕭寒;姜夢曉;萬四爽;費志軍;王宇;張莉敏;張琦;邱雪濤;樂旭;劉想 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/30;G06K9/62 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 臧霽晨;楊美靈 |
| 地址: | 200135 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 以及 裝置 | ||
1.一種文本分類方法,其特征在于,包括下述步驟:
NLP預處理步驟,對用戶對話文字進行自然語言處理方法的分析,得到關于該用戶對話文字的詞集合和語義標注結果;以及
多維度特征選擇步驟,對于所述詞集合和語義標注結果按照多種規則組合,得到用戶對話文字所包含的語義信息的向量化表征形式,
其中,所述多維度特征選擇步驟包括下述子步驟:
抽取n-gram離散特征的子步驟;
抽取依存三元組特征的子步驟;以及
抽取WE分布式特征的子步驟,
其中,將三個子步驟得到的三部分的特征向量進行拼接,將拼接后的特征向量作為所述向量化表征形式,
其中,所述抽取依存三元組特征的子步驟包括:
將去除了所述詞集合中的停用詞的詞集合以句為單位進行依存句法分析,其中,依存句法分析使用LTP工具包實現;以及
根據依存關系三元組索引表,將依存關系三元組特征向量中的對應位置置1,其中,根據是否包含客服業務的關鍵詞,由訓練語料中的依存關系三元組生成對應的索引表,所述客服業務的關鍵詞為發起詞、接收詞以及關系類型,
其中,所述抽取n-gram離散特征的子步驟包括:
從所述NLP預處理步驟得到的用戶對話詞集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代單詞,Unigram、Bigram、Trigram分別指代一、二、三個單詞連續出現的情形;以及
其中,根據n-gram索引表,將n-gram離散特征向量中的對應位置置1,其中,根據訓練語料中的n-gram統計結果,將出現次數高的gram添加到gram索引表中,
所述抽取WE分布式特征的子步驟包括:
將去除了所述詞集合中的停用詞的詞集合進行詞向量檢索匹配,其中,詞向量匹配使用到深度學習模型訓練得到的詞向量文件;以及
將各詞向量的每一維度進行最大值Max、最小值Min、平均值Avg計算,生成三個新的特征向量。
2.如權利要求1所述文本分類方法,其特征在于,
所述NLP預處理步驟包括下述子步驟:
將用戶對話文字以詞為單位進行分詞和詞性標注并得到詞集合和語義標注結果,其中,所述自然語言處理方法使用LTP工具包實現;以及
根據停用詞詞表,去除所述詞集合中的停用詞,其中,所述停用詞詞表是根據訓練語料中的分詞和詞性標注結果將出現次數過高的虛詞作為停用詞而生成。
3.如權利要求1或2任意一項所述文本分類方法,其特征在于,在所述多維度特征選擇步驟之后,進一步具備:
分類步驟,對于所述多維度特征選擇步驟得到的用戶對話分類計算概率估計值。
4.如權利要求3所述文本分類方法,其特征在于,
所述分類步驟包括:
將通過所述多維度特征選擇步驟得到的向量化的用戶對話文字所包含的語義信息進行拼接;
將拼接后的特征向量作為規定分類系統的輸入;以及
根據分類系統的輸出概率,將其中最大項對應的用戶對話意圖,作為用戶對話文本的分類標簽。
5.如權利要求4所述文本分類方法,其特征在于,
所述規定分類系統包括:神經網絡、支持向量機、邏輯回歸分類系統中的一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711441846.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于文本間匹配的方法
- 下一篇:用于字符串模糊匹配的方法和裝置





