[發明專利]主題模型的生成方法及裝置、主題分布的獲取方法及裝置在審
| 申請號: | 201410738272.1 | 申請日: | 2014-12-05 |
| 公開(公告)號: | CN104536979A | 公開(公告)日: | 2015-04-22 |
| 發明(設計)人: | 石磊;蔣佳軍 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主題 模型 生成 方法 裝置 分布 獲取 | ||
【技術領域】
本發明涉及計算機技術領域,尤其涉及一種主題模型的生成方法及裝置、主題分布的獲取方法及裝置。
【背景技術】
在機器學習與自然語言處理領域中,常常需要從大量文本中,挖掘文本域詞語之間所蘊含的潛在語義關系,即所主題。通過主題模型的學習和預測,可以獲得文本的主題分布,用于實現文本聚類,以及應用于后續分類、檢索、擴展、推薦等任務。
現有技術中,傳統的主題模型,如概率潛語義分析(Probability?Latent?Semantic?Analysis,PLSA)算法、非負矩陣分解(Non-negative?Matrix?Factorization,NMF)算法、隱含迪利克萊分布(Latent?Dirichlet?Allocation,LDA)算法,均采取詞袋(bag?of?words)的概念,忽略了詞條之間的關系,用多項分布(multinomial)描述每個詞條的主題分布。然而,傳統的主題模型都是針對長文本而提出,隨著社交網絡的興起,互聯網上產生了大量如微博、評論等短文本,由于短文本中包含的詞條數目較少,受限于其共現詞的低頻性,利用傳統的主題模型獲得文本的主題分布的準確性和穩定性比較低。
【發明內容】
有鑒于此,本發明實施例提供了一種主題模型的生成方法及裝置、主題分布的獲取方法及裝置,用以解決現有技術中利用傳統的主題模型獲得文本的主題分布的準確性和穩定性比較低的問題。
本發明實施例的一方面,提供一種主題模型的生成方法,所述主題模型包括主題分布的目標期望;包括:
獲得訓練樣本中詞對的第一后驗概率參數;
依據所述第一后驗概率參數,獲得所述訓練樣本中詞對的主題分布的候選期望;其中,所述詞對包含所述訓練樣本中兩個不同的詞條;
依據所述訓練樣本中詞對的主題分布的候選期望,獲得主題模型的收斂度;
若所述主題模型的收斂度滿足終止條件,將所述訓練樣本中詞對的主題分布的候選期望作為所述主題分布的目標期望。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述獲得訓練樣本中詞對的第一后驗概率參數,包括:
獲得訓練樣本中詞對的迪利克萊分布的先驗概率參數;
依據隨機數與所述迪利克萊分布的先驗概率參數之和,獲得所述訓練樣本中詞對的迪利克萊分布的第一后驗概率參數,以作為所述訓練樣本中詞對的第一后驗概率參數。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述獲得訓練樣本中詞對的第一后驗概率參數,包括:
依據服從泊松分布的所述訓練樣本中詞對的出現次數,并利用如下公式,獲得所述迪利克萊分布的第一后驗概率參數以作為所述訓練樣本中詞對的第一后驗概率參數:
其中,ε表示所述訓練樣本中詞對b的迪利克萊分布的先驗概率參數;nb表示服從泊松分布的所述訓練樣本中詞對b的出現次數;表示詞對b的中間參數ρ*中第b行、第k列的M維向量中的第m個數值。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述依據所述第一后驗概率參數,獲得所述訓練樣本中詞對的主題分布的候選期望,包括:
依據所述迪利克萊分布的第一后驗概率參數并利用如下公式,獲得所述訓練樣本中詞對的主題分布的候選期望:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司;,未經百度在線網絡技術(北京)有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410738272.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種圖片顯示方法及終端
- 下一篇:一種基于查詢狀態機的XML流數據查詢方法





