[發明專利]基于LDA融合模型和多層聚類的新聞話題檢測方法在審
| 申請號: | 201710289343.8 | 申請日: | 2017-04-27 |
| 公開(公告)號: | CN107423337A | 公開(公告)日: | 2017-12-01 |
| 發明(設計)人: | 喻梅;安永利;于健;于瑞國;趙滿坤;謝曉東 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 天津市北洋有限責任專利代理事務所12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 lda 融合 模型 多層 新聞 話題 檢測 方法 | ||
技術領域
本發明屬于數據挖掘、自然語言處理和信息檢索領域,涉及監測技術和網絡信息過濾技術,尤其是文本分析和話題檢測方法。具體講,涉及基于潛在狄里克雷分布(Latent Dirichlet Allocation,LDA)融合模型和多層聚類的新聞話題檢測方法。
背景技術
話題檢測與跟蹤(Topic Detection and Tracking,TDT)是早些年從事件的檢測與跟蹤(Event Detection and Tracking,EDT)演變而來,是一項在沒有人工干預的情況下自動對新聞報道進行內容識別、挖掘和組織分類的技術。基于詞頻-反文檔頻率(Term Frequency–Inverse Document Frequency,TF-IDF)的向量空間模型(Vector Space Model,VSM)在文本表示方面展現出強大的能力。向量空間模型是一個用來表示文本文件的代數模型。它應用于信息過濾、信息檢索、索引以及關聯規則。相對于標準布爾數學模型,向量空間模型是基于線性代數的簡單模型,其詞組的權重不是二元的,允許計算文檔和索引之間的連續相似度,允許其根據可能的相關性來進行文檔排序,并且允許局部匹配。
但是空間向量模型也有缺點。空間向量模型不適用于較長的文件,因為它的相似值因為過小的內積和過高的維數而不理想。并且因為基于統計學的出發點使得這種方式忽略了文本語義之間的關聯性,導致語義敏感度不佳。除此之外,其詞組在文檔中出現的順序在向量中無法表示,其權重是直觀上獲得的而不夠正式。
基于單遍聚類算法(Single-Pass)的話題檢測與跟蹤框架為TDT的研究奠定了基礎。Single-pass算法采用增量聚類的方式將文本向量與已有話題內的報道進行比對,計算文本相似度進行匹配。若與某個話題類別匹配,則把該文本歸入該話題,若該文本域所有話題類別的相似度均小于某一閾值,則將該文本表示成新的種子話題。
單遍聚類算法也存在一定缺陷。由于Single-Pass算法對于新聞文本的輸入順序較為敏感,導致當新聞文本的數量不斷提升時,算法的聚類效果卻隨之降低,準確度方面稍有欠缺。文本的層次聚類算法效果好,但是O(n2)的時間復雜度和超高內存耗費制約著該算法。
發明內容
為克服現有技術的不足,本發明旨在提出基于LDA融合模型和多層聚類的新聞話題檢測方法,針對基于TF-IDF向量空間算法語義方面的缺陷,和文本層次聚類時間復雜度和準確度的缺陷,對大量新聞文本的特征提取、表示建模、相似度計算以及快速準確的文本聚類方法進行改進。本發明采用的技術方案是,基于LDA融合模型和多層聚類的新聞話題檢測方法,步驟如下:
步驟一:使用向量空間模型VSM構建相似度模型,VSM模型每一維度表示對應詞的權重向量,對于兩個向量d1、d2,用余弦相似度計算方法計算他們兩者間的相似度,余弦值越是趨向于1,表示兩個向量夾角越大;余弦值趨向于0,也就意味著兩個向量方向越是一致,相似度越高;
步驟二:使用LDA構建主題模型,利用吉布斯Gibbs方法進行抽樣,對模型的各項參數進行計算,通過迭代樣本值方式來實現對于馬爾科夫鏈的構建,并使得其最終達到收斂,最終得到準確的參數設置;
步驟三:將LDA潛在主題模型和VSM空間向量模型結合,在整個聚類算法運行前,通過文本-主題關系矩陣,融合基于TF-IDF權值方法的VSM模型,將VSM模型求得的相似度與LDA模型求得的相似度進行線性表示,并且加權求和得到最終相似度值,使兩種文本模型有機的融合;
步驟四:使用基于單遍聚類算法Single-Pass將文本數據進行VSM建模,特征詞權重賦予的方式采用TF-IDF方法,從而將報道表征成一個一個的向量形式。然后將文檔流與聚類過程中全部話題進行相似度計算,通過將計算的相似度與預先設定的閾值進行對比,判斷該話題是否為新話題;
步驟五:使用ISP聚類算法:在步驟四Single-Pass算法的基礎上增加緩存文檔流,將步驟四相似度中小于預先設定閾值的相似度放到緩存文檔流中,并重新計算相似度,直到所有文檔聚類結束;
步驟六:在步驟五基礎上加入AHC的ISP&AH聚類算法:計算每個文檔之間的相似度,建立一個關于文檔與文檔的相似度矩陣,然后合并矩陣中兩個相似度值最大的文檔為一個話題集合,用這個新的話題類取代被合并的兩個舊的文檔,重新迭代化計算相似度矩陣并再次合并,最終達到滿足停止條件時停止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710289343.8/2.html,轉載請聲明來源鉆瓜專利網。





