[發明專利]一種數據流主題特征提取方法、裝置、設備及存儲介質有效
| 申請號: | 201811641140.1 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109726222B | 公開(公告)日: | 2023-06-13 |
| 發明(設計)人: | 楊璐;王猛 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/242 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 215137 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據流 主題 特征 提取 方法 裝置 設備 存儲 介質 | ||
本發明所提供的數據流主題特征提取方法通過使用詞匯表的單詞數目不固定的LDA模型,通過使其主題單詞分布服從原子數目不固定的狄利克雷過程,而非原子數目固定的狄利克雷分布,使得新模型在遇到未在詞匯表中出現的新單詞時可以將其加入到詞匯表中并繼續算法的執行,通過不斷地遇到并添加新的單詞,實現信息充分利用的同時沒有增加內存處理壓力,使LDA模型中的詞匯表與需要處理的語料更加貼合,提升了模型的精度,增強了在線LDA算法處理數據流的能力。本發明還公開了一種數據流主題特征提取裝置、設備及一種可讀存儲介質,具有上述有益效果。
技術領域
本發明涉及文本數據處理技術領域,特別涉及一種數據流主題特征提取方法、裝置、設備及一種可讀存儲介質。
背景技術
主題模型是一種可以從海量數據中找出用戶所需要的信息的技術,其通過分析語料中的每個文檔,統計文檔中的詞語,并根據統計得到的信息來推斷當前文檔中含有哪些主題,以及每個主題所占的比例是多少。
LDA(Latent?Dirichlet?Allocation)是當前主流的主題模型,在文本挖掘領域包括文本主題識別、文本分類以及文本相似度計算方面都有應用。針對各種應用場景,產生了各種基于LDA主題模型算法的變種算法。其中,用于處理數據流的一類LDA主題模型稱為在線LDA(Online?LDA)算法,如:在線吉布斯采樣算法(Online?Gibbs?Sampling,OGS)、在線變分推斷算法(Online?Variational?Inference,OVB)、在線置信傳播算法(Online?BeliefPropagation,OBP)等。
在線LDA算法的執行基于詞匯表,在算法執行之前,需要掃描全部的語料,將語料中出現的所有單詞組織成詞匯表后,算法才可以開始執行,并且在線LDA算法在執行的過程中無法增添新的單詞到詞匯表中。因此在線LDA算法只能處理數據流中存在于詞匯表中的單詞,無法處理數據流中不存在于詞匯表中的單詞,這樣會造成信息損失,而如若使用單詞量很大的詞匯表來覆蓋數據流中可能會出現的所有單詞,則會造成內存負擔過重。
因此,如何實現信息充分利用的同時減輕內存處理壓力,是本領域技術人員需要解決的技術問題。
發明內容
本發明的目的是提供一種數據流主題特征提取方法,該方法利用使其主題單詞分布服從原子數目不固定的狄利克雷過程,可以實現對新單詞的處理,從而實現語料的充分利用,同時只添加新的單詞至詞匯表中,處理壓力改變較小,增強了在線LDA算法處理數據流的能力;本發明的另一目的是提供一種數據流主題特征提取裝置、設備及一種可讀存儲介質,具有上述有益效果。
為解決上述技術問題,本發明提供一種數據流主題特征提取方法,包括:
基于在線LDA算法,其特征在于,包括:
將接收到的數據流按照到達時間順序組織成若干批次語料,并確定當前待處理批次語料;
對所述待處理批次語料中包含的單詞進行掃描識別,得到待處理單詞;
將所述待處理單詞與詞匯表中的單詞進行比對,判斷所述待處理單詞中是否包括所述詞匯表中不存在的新單詞;
如果有,將所述新單詞添加至所述詞匯表中,得到更新后的詞匯表;
根據折棒構造為所述待處理單詞分配各主題概率,得到初始主題概率;
運行新LDA模型根據新詞匯表對所述初始主題概率進行數據處理,得到各所述待處理單詞的主題概率;其中,所述新LDA模型為基于置信傳播框架,服從狄利克雷過程的LDA模型。
優選地,所述根據折棒構造為所述待處理單詞分配各主題概率,得到初始主題概率,包括:
根據公式1為所述待處理單詞分配各主題概率,得到初始主題概率;
其中,所述公式1具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811641140.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據管理方法、裝置及終端設備
- 下一篇:一種數據流的關聯方法及裝置





