[發明專利]一種數據流主題特征提取方法、裝置、設備及存儲介質有效
| 申請號: | 201811641140.1 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109726222B | 公開(公告)日: | 2023-06-13 |
| 發明(設計)人: | 楊璐;王猛 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/242 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 215137 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據流 主題 特征 提取 方法 裝置 設備 存儲 介質 | ||
1.一種數據流主題特征提取方法,基于在線LDA算法,其特征在于,包括:
將接收到的數據流按照到達時間順序組織成若干批次語料,并確定當前待處理批次語料;
對所述待處理批次語料中包含的單詞進行掃描識別,得到待處理單詞;
將所述待處理單詞與詞匯表中的單詞進行比對,判斷所述待處理單詞中是否包括所述詞匯表中不存在的新單詞;
如果有,將所述新單詞添加至所述詞匯表中,得到更新后的詞匯表;
根據折棒構造為所述待處理單詞分配各主題概率,得到初始主題概率,所述折棒構造的狄利克雷分布為二參數分布;
運行新LDA模型根據新詞匯表對所述初始主題概率進行數據處理,得到各所述待處理單詞的主題概率;其中,所述新LDA模型為基于置信傳播框架,服從狄利克雷過程的LDA模型;
所述運行新LDA模型根據新詞匯表對所述初始主題概率進行數據處理,得到各所述待處理單詞的主題概率,包括:
根據新詞匯表將所述初始主題概率代入公式2進行數據處理,得到各所述待處理單詞的主題概率;
其中,所述公式2具體為:
μw,d(k)是文本d中單詞w屬于主題k的概率;是在主題k的單詞分布中,除了文本d外其他所有文本中單詞w的概率;是文本d中除了單詞w外,其它單詞屬于主題k的計數;是在主題k的單詞分布中,除了文本d中的單詞w外,其他所有單詞屬于主題k的概率,其中,α、β是狄利克雷分布的參數。
2.如權利要求1所述的數據流主題特征提取方法,其特征在于,所述根據折棒構造為所述待處理單詞分配各主題概率,得到初始主題概率,包括:
根據公式1為所述待處理單詞分配各主題概率,得到初始主題概率;
其中,所述公式1具體為:
其中,LOC(w,k)是定位單詞w在主題k的單次分布中的位置的函數,WORD(j,k)是主題k的單詞分布中坐標為j的單詞,φw(k)為主題k中,單詞w對應的概率,Vw(k)為主題k的每個單詞對應的φw(k)只對應一個折棒產生的權重系數,VWORD(j,k)(k)為主題k的單詞分布中坐標為j的單詞對應的一個折棒產生的權重系數。
3.一種數據流主題特征提取裝置,基于在線LDA算法,其特征在于,包括:
語料確定單元,用于將接收到的數據流按照到達時間順序組織成若干批次語料,并確定當前待處理批次語料;
單詞識別單元,用于對所述待處理批次語料中包含的單詞進行掃描識別,得到待處理單詞;
比對單元,用于將所述待處理單詞與詞匯表中的單詞進行比對,判斷所述待處理單詞中是否包括所述詞匯表中不存在的新單詞;
詞匯表更新單元,用于當所述待處理單詞中包括所述詞匯表中不存在的新單詞時,將所述新單詞添加至所述詞匯表中,得到更新后的詞匯表;
折棒構造單元,用于根據折棒構造為所述待處理單詞分配各主題概率,得到初始主題概率,所述折棒構造的狄利克雷分布為二參數分布;
LDA處理單元,用于運行LDA模型根據新詞匯表對所述初始主題概率進行數據處理,得到各所述待處理單詞的主題概率;其中,所述LDA模型為基于置信傳播框架,服從狄利克雷過程的LDA模型;
所述LDA處理單元具體用于:
根據新詞匯表將所述初始主題概率代入公式2進行數據處理,得到各所述待處理單詞的主題概率;
其中,所述公式2具體為:
μw,d(k)是文本d中單詞w屬于主題k的概率;是在主題k的單詞分布中,除了文本d外其他所有文本中單詞w的概率;是文本d中除了單詞w外,其它單詞屬于主題k的計數;是在主題k的單詞分布中,除了文本d中的單詞w外,其他所有單詞屬于主題k的概率,其中,α、β是狄利克雷分布的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811641140.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據管理方法、裝置及終端設備
- 下一篇:一種數據流的關聯方法及裝置





