[發(fā)明專利]基于LDA融合模型和多層聚類的新聞話題檢測方法在審
| 申請?zhí)枺?/td> | 201710289343.8 | 申請日: | 2017-04-27 |
| 公開(公告)號: | CN107423337A | 公開(公告)日: | 2017-12-01 |
| 發(fā)明(設(shè)計)人: | 喻梅;安永利;于健;于瑞國;趙滿坤;謝曉東 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 lda 融合 模型 多層 新聞 話題 檢測 方法 | ||
1.一種基于LDA融合模型和多層聚類的新聞話題檢測方法,其特征是,步驟如下:
步驟一:使用向量空間模型VSM構(gòu)建相似度模型,VSM模型每一維度表示對應(yīng)詞的權(quán)重向量,對于兩個向量d1、d2,用余弦相似度計算方法計算他們兩者間的相似度,余弦值越是趨向于1,表示兩個向量夾角越大;余弦值趨向于0,也就意味著兩個向量方向越是一致,相似度越高;
步驟二:使用LDA構(gòu)建主題模型,利用吉布斯Gibbs方法進(jìn)行抽樣,對模型的各項參數(shù)進(jìn)行計算,通過迭代樣本值方式來實現(xiàn)對于馬爾科夫鏈的構(gòu)建,并使得其最終達(dá)到收斂,最終得到準(zhǔn)確的參數(shù)設(shè)置;
步驟三:將LDA潛在主題模型和VSM空間向量模型結(jié)合,在整個聚類算法運(yùn)行前,通過文本-主題關(guān)系矩陣,融合基于TF-IDF權(quán)值方法的VSM模型,將VSM模型求得的相似度與LDA模型求得的相似度進(jìn)行線性表示,并且加權(quán)求和得到最終相似度值,使兩種文本模型有機(jī)的融合;
步驟四:使用基于單遍聚類算法Single-Pass將文本數(shù)據(jù)進(jìn)行VSM建模,特征詞權(quán)重賦予的方式采用TF-IDF方法,從而將報道表征成一個一個的向量形式。然后將文檔流與聚類過程中全部話題進(jìn)行相似度計算,通過將計算的相似度與預(yù)先設(shè)定的閾值進(jìn)行對比,判斷該話題是否為新話題;
步驟五:使用ISP聚類算法:在步驟四Single-Pass算法的基礎(chǔ)上增加緩存文檔流,將步驟四相似度中小于預(yù)先設(shè)定閾值的相似度放到緩存文檔流中,并重新計算相似度,直到所有文檔聚類結(jié)束;
步驟六:在步驟五基礎(chǔ)上加入AHC的ISP&AH聚類算法:計算每個文檔之間的相似度,建立一個關(guān)于文檔與文檔的相似度矩陣,然后合并矩陣中兩個相似度值最大的文檔為一個話題集合,用這個新的話題類取代被合并的兩個舊的文檔,重新迭代化計算相似度矩陣并再次合并,最終達(dá)到滿足停止條件時停止。
2.如權(quán)利要求1所述的基于LDA融合模型和多層聚類的新聞話題檢測方法,其特征是,還包括驗證步驟,單獨使用VSM構(gòu)建相似度模型、單獨使用LDA構(gòu)建主題模型和將LDA與VSM相結(jié)合的方法的進(jìn)行對比,并通過計算F-Measure對三種方法進(jìn)行有效性評估,F(xiàn)-Measure的計算如公式(1)所示:
F-Measure=2×Precision×Recall/(Precision+Recall)(1)
如公式(1)所示,Precision表示準(zhǔn)確率,Recall表示召回率,Precision是指正確檢索的相關(guān)文檔數(shù)與檢索的總文檔數(shù)的比,Recall是指正確檢索的相關(guān)文檔數(shù)與實際上的相關(guān)文檔數(shù)的比,F(xiàn)-Measure的值越大,表示預(yù)測結(jié)果越好。
3.如權(quán)利要求1所述的基于LDA融合模型和多層聚類的新聞話題檢測方法,其特征是,一個實例中的具體步驟如下:
步驟S0101:使用TF-IDF構(gòu)建VSM相似度模型,文本內(nèi)容長短不一會造成權(quán)重分配上的不均衡顯現(xiàn),進(jìn)而使得相似度計算上出現(xiàn)偏差,因此還需要將文本向量歸一化表示;
步驟S0201:使用LDA構(gòu)建主題模型:采用Gibbs抽樣方法對模型的各項參數(shù)進(jìn)行計算,實現(xiàn)對于馬爾科夫鏈的構(gòu)建,最終得到的準(zhǔn)確參數(shù)設(shè)置,那么對于兩個不同的文本di和dj,計算基于潛在主題向量的LDA主題模型相似度SimLDA(di,dj);
步驟S0301:將LDA潛在主題模型和VSM空間向量模型結(jié)合,計算基于TF-IDF權(quán)重向量模型的相似度SimTFIDF(di,dj),并結(jié)合SimLDA(di,dj)將以上兩種文本相似度進(jìn)行線性組合,得到融合兩種結(jié)果的最終相似度,如公式(2)所示;
Sim(di,dj)=λ×SimTFIDF(di,dj)+(1-λ)×SimLDA(di,dj)(2)
其中λ為自定義的線性影響因子,通過其影響值將基于TF-IDF計算權(quán)值的VSM模型與基于主題的LDA模型按特定的比例進(jìn)行線性改變并加權(quán)求和;
步驟S0401:使用Single-Pass聚類算法,將文本數(shù)據(jù)進(jìn)行VSM建模,用TF-IDF方法賦予特征詞權(quán)重,將文本表征為向量形式;
步驟S0402:將文本流與聚類過程全部文檔進(jìn)行相似度計算,取得相似度最大值MaxSim,并記錄對應(yīng)話題TopicMax,將MaxSim與預(yù)先設(shè)定的閾值進(jìn)行對比,若MaxSim大于閾值,則為TopicMax,否則為新話題;
步驟S0501:使用ISP聚類算法,在步驟S0402的基礎(chǔ)上增加緩存文檔流,將相似度小于閾值的文檔加入緩存流,對緩存流的文章重新聚類,若計算的相似度大于閾值,則更新話題,否則將該文檔視為新話題,直到所有文檔聚類結(jié)束;
步驟S0601:加入AHC的ISP&AH聚類算法,首先將新聞文本中高相似度的話題聚在一起,然后,通過層次聚類方法在初步聚類結(jié)果上進(jìn)行二次聚類,將相似度高的話題進(jìn)一步融合,達(dá)到提高準(zhǔn)確率和召回率的目的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710289343.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





