[發明專利]短文本分類方法和裝置有效
| 申請號: | 201610087801.5 | 申請日: | 2016-02-16 |
| 公開(公告)號: | CN107085581B | 公開(公告)日: | 2020-04-07 |
| 發明(設計)人: | 鐘黎 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 董文倩;李靈潔 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 | ||
本發明公開了一種短文本分類方法和裝置。該方法包括:對目標短文本執行分詞處理,得到目標短文本的分詞;根據目標短文本的分詞提取目標短文本的關鍵詞;根據目標短文本的關鍵詞對目標短文本執行向量化處理,得到向量化短文本;對向量化短文本執行聚類計算,得到聚類結果;以及根據聚類結果對目標短文本進行分類。本發明解決了相關技術中短文本只能離線分類的技術問題。
技術領域
本發明涉及文本分類領域,具體而言,涉及一種短文本分類方法和裝置。
背景技術
目前,由于短文本具有結構松散、語法隨意、停用詞占比大等特點,針對于長文本的分類方法往往不適用。現有的短文本分類技術方案主要根據短文本自身特點進行特征擴充。比如,通過先借助分布表示,將短文本中的詞語利用語義相似模型投射到外部語料庫里,再利用上下文信息豐富短文本,其中,外部語料庫為大文本語料庫。這類短文本方法的分類精度雖然有一定的提升,但是只利用短文本自身特點進行特征擴充存在很大的局限性。
圖1是根據相關技術中的短文本分類的示意圖,如圖1所示,短文本與短文本之間先用字符串編輯距離進行計算,然后使用多維標度分析(Multidimensional Scaling,簡稱為MDS)方法將短文本映射到維基語料庫,其中,維基語料庫也即外部語料庫。通過判別函數分析有助于分析短文本和對應維基語料庫之間的簇類相似度和內在一致性。其次根據潛在語義分析(Latent Semantic Analysis,簡稱為LSA)來對所對應的維基上下文進行分類。最后再把分類情況逆向映射到短文本中去,從而實現了對短文本的分類。
但是,現有技術方案一方面受制于短文本與外部語料庫的上下文相互映射的關系,當短文本與外部語料庫映射不準確時,影響對短文本分類的準確性。另外,對短文本分類的準確性也受制于外部語料本身的分類效果的準確性。目前,對短文本進行分類時的類目體系需要預先根據外部語料庫建立,無法針對短文本進行擴展;每次進行短文本分類時都需映射到較大的外部語料庫進行分類,只能離線計算,無法實時對短文本進行分類操作,在短文本中的數據分布不均勻時,短文本與外部語料庫的映射過程會受到嚴重影響,導致完全無法正確分類。
針對相關技術中短文本只能離線分類的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種短文本分類方法和裝置,以至少解決相關技術中短文本只能離線分類的技術問題。
根據本發明實施例的一個方面,提供了一種短文本分類方法,該方法包括:對目標短文本執行分詞處理,得到目標短文本的分詞;根據目標短文本的分詞提取目標短文本的關鍵詞;根據目標短文本的關鍵詞對目標短文本執行向量化處理,得到向量化短文本;對向量化短文本執行聚類計算,得到聚類結果;以及根據聚類結果對目標短文本進行分類。
根據本發明實施例的另一方面,還提供了短文本分類裝置,該裝置包括:分詞單元,用于對目標短文本執行分詞處理,得到目標短文本的分詞;提取單元,用于根據目標短文本的分詞提取目標短文本的關鍵詞;向量單元,用于根據目標短文本的關鍵詞對目標短文本執行向量化處理,得到向量化短文本;聚類單元,用于對向量化短文本執行聚類計算,得到聚類結果;以及分類單元,用于根據聚類結果對目標短文本進行分類。
在本發明實施例中,對目標短文本執行分詞處理,得到目標短文本的分詞;根據目標短文本的分詞提取目標短文本的關鍵詞;根據目標短文本的關鍵詞對目標短文本執行向量化處理,得到向量化短文本;對向量化短文本執行聚類計算,得到聚類結果,然后根據聚類結果對目標短文本進行分類,達到了短文本在線分類的目的,從而實現了提高短文本分類效率和準確性的技術效果,進而解決了相關技術中短文本只能離線分類的技術問題。
附圖說明
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610087801.5/2.html,轉載請聲明來源鉆瓜專利網。





