[發明專利]基于主題遺傳的在線主題建模方法有效
| 申請號: | 201410016179.X | 申請日: | 2014-01-14 |
| 公開(公告)號: | CN103793478B | 公開(公告)日: | 2017-01-11 |
| 發明(設計)人: | 陳興蜀;何建云;王文賢;杜敏 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 成都信博專利代理有限責任公司51200 | 代理人: | 卓仲陽 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 主題 遺傳 在線 建模 方法 | ||
技術領域
本發明涉及網絡熱點主題的發現與演化分析方法,特別是一種基于主題遺傳的在線主題建模方法。
背景技術
針對論壇、微博等新興媒體的話題發現與演化分析是當前的一個研究熱點,它可以為輿情發現和預測提供支持,有利于輿情的及時處置,維護社會穩定。近年來,以LDA(Latent?Dirichlet?Allocation)為代表的主題模型得到了深入研究。由于LDA本身具有的話題建模能力,在話題演化領域具有先天的優勢?;贚DA的一些擴展模型也在隨后被提出,比如反映主題在時間上強度變化的TOT(Topic?Over?Time)模型、采用狀態空間記錄主題內容和強度演化信息的DTM(Dynamic?Topic?Model)模型以及考慮多時間粒度主題演化的MTTM(Multiscale?Topic?Tomography)模型等。但上述模型都需要全局建模,不具有在線處理新文本的能力。
在線LDA模型(Online?LDA,OLDA)模型也是LDA的改進模型,它的主要思想是將主題歷史分布作為當前時間窗口模型的先驗參數。在實施中,OLDA為每個主題維護一個時間窗口可調的演化矩陣矩陣中的每一列都是對應時間窗口內主題k在單詞上的分布。各個時間窗口的分布具有不同權值,用權值向量ωδ表示,δ表示時間窗口大小。在每個時間片的建模過程中,各主題的先驗參數用如下方式求出:
通過以上方式,OLDA適合文本的在線處理,并具有主題對齊的特性,在主題發現與演化分析中得到了廣泛應用。但OLDA的權值向量ωδ是固定值,無法根據主題的動態變化做出調整。而且同一時間片的各個主題共用相同的權重,該值的設定比較困難。若權重設置過小,則前后主題不能對齊;若權重設置過大,則歷史數據影響過高,從而導致一些并非同一事件的主題由于共詞的出現而被強制對齊在一起。特別是當t時間片有新主題出現時,該主題容易與某個舊主題混合在一起共同與t-1中的相關主題對齊,造成新主題檢測的困難。此外,OLDA維持一個增量更新的詞表,每個時間片中的新詞都被加入詞表中,最終會因詞表太大而導致內存溢出,并且處理維數的增加使運行時間不斷增高。
發明內容
本發明的目的是提供一種基于主題遺傳的在線主題建模方法,本方法的主要思想是將前一個時間片的主題分布“遺傳”給當前時間片,作為當前時間片Dirichlet分布(狄利克雷分布)的先驗參數。其中不同主題具有不同的遺傳度,遺傳度根據主題強度排名計算得出,兩者成正比關系。
實現本發明目的的技術方案如下:一種基于主題遺傳的在線主題建模方法,包括
步驟1:令時間片tn為當前時間片,抓取時間片tn中個文本的數據,得到詞表
步驟2:按照LDA模型進行主題建模,得到文本的文本-主題分布向量和主題的主題-單詞分布向量其中,m為文本序號,k為主題序號,k=1,2,...,K,K為主題總數;
步驟3:計算主題強度
步驟4:根據主題強度作出主題排名
步驟5:根據主題排名計算主題的遺傳因子
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410016179.X/2.html,轉載請聲明來源鉆瓜專利網。





