[發明專利]一種基于變分推斷的學術研究熱點關鍵詞提取方法有效
| 申請號: | 201710112755.4 | 申請日: | 2017-02-28 |
| 公開(公告)號: | CN106897436B | 公開(公告)日: | 2018-08-07 |
| 發明(設計)人: | 馬占宇;陳光啟;肖波;司中威 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 推斷 學術研究 熱點 關鍵詞 提取 方法 | ||
1.一種基于變分推斷的學術研究熱點提取方法,其特征在于以下步驟:
步驟一.文本預處理:根據論文文本的特點,將標題、作者和摘要提取出,并對摘要進行分詞、大小寫統一、去標點、詞形還原、去除停用詞的預處理;
步驟二.特征提取:為了有效提取出文本的特征,本文使用TF-IDF(term frequency-inverse document frequency)方法對文本中的詞語進行加權;
步驟三.層次聚類步驟:使用高斯混合模型(GMM-Gaussian Mixture Model)來描述文本的分布,通過變分推斷(Variational Inference)的方式,估計高斯混合模型的參數,完成聚類;通過逐級對每次的聚類分別進行高斯混合模型的變分推斷,實現層次聚類;具體過程如下:
1)通過高斯混合模型表示數據的分布:
p(X,Z,μ,Λ,π)=p(X|Z,μ,Λ)p(μ|Λ)p(Λ)p(Z|π)p(π)
其中,模型的條件概率分布為:
均值μ與精度矩陣Λ的先驗分布為:
分配變量Z與混合系數π的分布為:
2)通過變分推斷估計每個樣本的分配變量zj,高斯混合模型的有效混合分量的數量P,與每個混合分量均值μi,將每個有效混合分量作為一個類,即一個話題,其均值μi作為類中心;
3)將2)得到的類作為P個新的數據集合{M1,M2,...,MP},對每個新的數據集合Mi,重復1)和2)步驟,估計出類Mi中有效混合分量數量Si,每個有效混合分量均為Mi的子類,即Mi的二級話題;以及估計每個有效混合分量均值μij,完成層次聚類,根據需求,可再將子類依上述步驟繼續聚類;
步驟四.結果生成:將步驟三2)中得到的每一類的均值μi取出,依照權值大小,將μi中的詞匯排序,取出權值最大的三個詞作為該類一級話題的關鍵詞;對于步驟三3)中生成的每一個子類,在其均值μij中取出前三個權重最大且未出現在一級話題中的詞語,作為二級話題的關鍵詞;將每個一級話題及二級話題的關鍵詞按照樹的結構排布,生成話題樹,完成對學術文章的研究熱點的提取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710112755.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:終端控制方法及裝置
- 下一篇:一種知識系統的高階規則多分類方法及其系統





