[發明專利]基于word2vec模型的短文本數據流的快速增量式分類方法有效
| 申請號: | 201910169255.3 | 申請日: | 2019-03-06 |
| 公開(公告)號: | CN109918667B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 李培培;胡陽;胡學鋼 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F18/24 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 word2vec 模型 文本 數據流 快速 增量 分類 方法 | ||
本發明公開了一種基于word2vec模型的分布式短文本數據流快速增量分類方法,其步驟包括:1從知識庫中獲取外部語料庫構建woord2vec模型,并獲取詞向量集合Vec;2構建動態線性LR分類器組與全局類標簽集合;3增量式更新全局標簽集合,修改并增加分類器組;4預測樣本,獲取未在詞集合Vocab中的新詞樣本集合,構建詞向量模型與詞向量擴展集合;5獲取測試數據流的類標簽強度。本發明能夠提高短文本數據流的分類準確率,減少模型構建的時間消耗,從而達到快速適應短文本數據流分類的目的。
技術領域
本發明屬于短文本數據流挖掘領域,特別是涉及一種類標簽不斷變化的快速無限短文本數據流的分類方法。
背景技術
隨著Web2.0等信息技術的迅猛發展,實際應用領域如社交網絡、在線購物、傳感器網絡等涌現出一種海量、高速和動態的數據——數據流。在社交領域方面由于社交網絡媒體,論壇的普及,長度很短的文本涌入我們的生活,例如微博,tweets,上用戶的評論和論壇上的互動。短文包含各種領域的大量信息,如體育,教育,科學等。與一般的普通文本相比,短文本具有稀疏性,實時性,海量性,以及不規范性。例如新浪微博限定140字符,而更多的可能只有一個句子甚至一個短語。并在網絡上具有實時更新性與動態變化性,發生主題演化,例如微博上的熱度排行榜與熱度詞的變化等。并且用戶在網絡平臺的交互中通常會產生大量的短文本,數據量激增等現狀。據不完全統計目前主流交互平臺(如微博TwitterFacebook等)用戶評論平均能達到每秒346條評論數據。這將使得短文本處理器必須具有與之相匹配的同量級數據處理吞吐量,否則隨著時間的增加,將造成數據大量累積。以上種種問題使得目前有關的短文本分類方法與數據流分類方法都面臨嚴峻的挑戰:
挑戰之一:傳統的短文本分類方法一般利用外部語料庫擴展短文本,然后使用傳統的分類方法進行分類,如樸素貝葉斯支持向量機(SVMs)、決策樹等,或者直接利用自身隱含的統計信息擴展短文本進行分類,如LDA+KNN進行分類。但它們一般屬于批處理程序,很難及時處理不斷到來的短文本數據。
挑戰之二:短文本數據流每時每刻都會產生高速大量的短文本數據,導致嚴重的高維問題,已有的文本分類方法很少解決這個問題。
挑戰之三:短文本流由于其實時可變性,會時常發生主題演化,而目前的數據流分類問題都沒有關注這個現狀。
挑戰之四:已有的短文本數據流分類大多是利用批處理的分類器如(SVM,Bayes,KNN)等構建集成分類器組應用于短文本數據流分類。由于其基分類器本質是設計應用于批處理,通過迭代獲取最優解,導致數據訓練時間開銷大,容易造成對數據塊處理出現延遲累積,因此難以應用于對高速短文本數據流的訓練,難以擴展。
發明內容
本發明為了避免上述現有技術存在的不足,提供一種基于word2vec模型的短文本數據流的快速增量式分類方法,以期能夠提高短文本數據流的分類準確率,減少模型構建的時間消耗,從而達到快速適應短文本數據流分類的目的。
本發明為了達到上述發明目的,采用如下技術方案:
本發明一種基于word2vec模型的短文本數據流的快速增量式分類方法的特點是按照如下步驟進行:
步驟1:構建word2vec模型:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910169255.3/2.html,轉載請聲明來源鉆瓜專利網。





