[發明專利]一種文本分類方法及裝置在審
| 申請號: | 201710003223.7 | 申請日: | 2017-01-03 |
| 公開(公告)號: | CN108268560A | 公開(公告)日: | 2018-07-10 |
| 發明(設計)人: | 王朝民;叢鵬宇;王惠欣;任智杰;馮俊蘭;孫佳 | 申請(專利權)人: | 中國移動通信有限公司研究院;中國移動通信集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 張穎玲;蔣雅潔 |
| 地址: | 100053 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 文本分類 主題向量 矢量確定 主題模型 矢量 詞語 | ||
本發明公開了一種文本分類方法及裝置,所述方法包括:基于主題模型確定文本對應的主題向量;根據所述文本中包含的至少一個詞語,確定所述文本對應的詞矢量;利用所述文本的所述主題向量以及所述詞矢量確定所述文本對應的類別。
技術領域
本發明涉及通信領域中的連接管理技術,尤其涉及一種文本分類方法及裝置。
背景技術
文本表示是將無結構的原始文本轉化為結構化的計算機可以識別處理的信息的過程,目前使用比較廣泛的文本表示方法有熱詞(one-hot)、詞頻-逆文本頻率(TFIDF)、詞矢量(Word Embedding)三種。
具體的:one-hot是使用一個詞典大小的向量表示一個文本,每一維對應一個詞,只有一個維度的值為1,這個維度就代表了當前的詞,其他維度的元素全部為0。TFIDF同樣每一維對應一個詞,但是該維的值為TFIDF值,不是二值1或0;TF稱為詞頻,用于計算該詞描述文本內容的能力;IDF稱為反文本頻率,用于計算該詞區分文本的能力。Word Embedding是一種低維實數向量,最大的貢獻是讓相關的詞在距離上更接近了。
但是,利用one-hot表示文本,每個文本都需要長向量來表示,這種表示龐大而稀疏,而且不包含文本的語義信息;利用TFIDF表示文本,每個文本同樣都需要長向量來表示,而且無法體現單詞的位置;利用Word Embedding表示文本,相同上下文的詞具有相同的詞矢量,但這些詞實際上差別很大,所以在文本表示精確度方面欠佳。
發明內容
本發明的主要目的在于提出一種文本分類方法及裝置,旨在解決現有技術中存在的上述問題。
為實現上述目的,本發明提供的一種文本分類方法,所述方法包括:
基于主題模型確定文本對應的主題向量;
根據所述文本中包含的至少一個詞語,確定所述文本對應的詞矢量;
利用所述文本的所述主題向量以及所述詞矢量確定所述文本對應的類別。
本發明提供一種文本分類裝置,所述裝置包括:
主題向量處理單元,用于基于主題模型確定文本對應的主題向量;
詞矢量處理單元,用于根據所述文本中包含的至少一個詞語,確定所述文本對應的詞矢量;
分類單元,用于利用所述文本的所述主題向量以及所述詞矢量確定所述文本對應的類別。
本發明提出的一種文本分類方法及服務器,就能夠對文本進行主題向量以及詞矢量的分析,基于主題向量以及詞矢量作為文本的表示并確定所述文本對應的類別。如此,在文本分類的關鍵步驟文本表示上,同時加入文本的語義信息和主題信息,從而避開了文本表示龐大而稀疏的問題,取得較好的分類效果。
附圖說明
圖1為本發明實施例文本分類方法流程示意圖;
圖2為本發明實施例場景示意圖一;
圖3為本發明實施例場景示意圖二;
圖4為本發明實施例文本分類裝置組成結構示意圖。
具體實施方式
下面結合附圖和具體實施例對本發明作進一步詳細說明。
實施例一、
本發明實施例提供了一種文本分類方法,如圖1所示,包括:
步驟101:基于主題模型確定文本對應的主題向量;
步驟102:根據所述文本中包含的至少一個詞語,確定所述文本對應的詞矢量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信有限公司研究院;中國移動通信集團公司,未經中國移動通信有限公司研究院;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710003223.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于票務搜索的信息提供方法和裝置
- 下一篇:查詢數據庫的方法和裝置





