[發(fā)明專利]一種基于變分推斷的學(xué)術(shù)研究熱點(diǎn)關(guān)鍵詞提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710112755.4 | 申請(qǐng)日: | 2017-02-28 |
| 公開(公告)號(hào): | CN106897436B | 公開(公告)日: | 2018-08-07 |
| 發(fā)明(設(shè)計(jì))人: | 馬占宇;陳光啟;肖波;司中威 | 申請(qǐng)(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 推斷 學(xué)術(shù)研究 熱點(diǎn) 關(guān)鍵詞 提取 方法 | ||
本發(fā)明實(shí)施例公開了一種基于變分推斷的學(xué)術(shù)研究熱點(diǎn)關(guān)鍵詞提取方法。該系統(tǒng)包括如下步驟:文本預(yù)處理步驟,將文本分割清洗成為詞語(yǔ)的集合;文本表示步驟,通過TF?IDF特征加權(quán)將詞語(yǔ)組成的文本映射到向量空間中成為詞向量;層次聚類步驟,使用高斯混合模型表示數(shù)據(jù)的分布,并通過變分推斷方法估計(jì)混合模型的參數(shù),將模型劃分為幾個(gè)高斯模型的混合,實(shí)現(xiàn)聚類的目的,再對(duì)每個(gè)類的樣本進(jìn)行高斯混合模型的變分推斷,實(shí)現(xiàn)層次聚類;結(jié)果生成步驟:將層次聚類得到的每個(gè)類作為一個(gè)話題,類中心里權(quán)值最高的詞語(yǔ)作為該類的關(guān)鍵詞,按照層次聚類的結(jié)構(gòu)生成話題樹。利用本發(fā)明實(shí)施例,能夠高效、準(zhǔn)確地提取一定時(shí)間內(nèi)學(xué)術(shù)研究的熱點(diǎn)關(guān)鍵詞,作為一個(gè)合理的參考,具有實(shí)用價(jià)值。
技術(shù)領(lǐng)域
本發(fā)明涉及對(duì)學(xué)術(shù)文章中研究熱點(diǎn)關(guān)鍵詞的提取,著重描述了一種通過變分推斷的方法達(dá)到學(xué)術(shù)研究熱點(diǎn)關(guān)鍵詞提取的目的。
背景技術(shù)
互聯(lián)網(wǎng)上數(shù)據(jù)的增長(zhǎng)呈現(xiàn)出爆炸的態(tài)勢(shì),在這些海量數(shù)據(jù)中,又隱含著很多的信息和知識(shí)。目前,在各種學(xué)科領(lǐng)域中,每年都有很多論文發(fā)表。由于文章數(shù)量眾多,我們很難清楚地知道在某一特定的領(lǐng)域中,每一年研究的熱點(diǎn)都是什么。因此,我們需要將對(duì)數(shù)據(jù)進(jìn)行分析、挖掘的方法應(yīng)用于學(xué)術(shù)文章中。
本發(fā)明中通過變分推斷的方式分析數(shù)據(jù)。流程大致分四步,文本預(yù)處理、文本表示、層次化的變分推斷、結(jié)果生成。其中,變分推斷步驟基于高斯混合模型,對(duì)樣本的概率分布進(jìn)行估計(jì),將樣本表示成若干個(gè)高斯分布的組合,通過調(diào)節(jié)高斯模型的個(gè)數(shù)、混合方式,使混合模型逼近任意的分布。模型中每個(gè)高斯分布可以代表一類話題,變分推斷方法可以自動(dòng)地確定高斯混合模型最優(yōu)的類別數(shù)以及類別分布,適用于本場(chǎng)景。
對(duì)一個(gè)特定領(lǐng)域內(nèi)的期刊、論文按照時(shí)間劃分后進(jìn)行分析,可以分析出這一領(lǐng)域內(nèi)的研究熱點(diǎn)變化情況;對(duì)不同領(lǐng)域的論文同時(shí)進(jìn)行分析,可能會(huì)發(fā)現(xiàn)其中融合與交叉的研究點(diǎn),以及預(yù)見技術(shù)發(fā)展的新動(dòng)向。
當(dāng)前我國(guó)信息化工作的一項(xiàng)重點(diǎn)就是加強(qiáng)對(duì)信息資源的開發(fā)和利用。有效挖掘利用已有的信息,能夠大大地提高社會(huì)的效率,推動(dòng)科技、經(jīng)濟(jì)的發(fā)展。通過使用機(jī)器學(xué)習(xí)方法,對(duì)大規(guī)模的文章進(jìn)行分析研究,尋找出不同領(lǐng)域的研究熱點(diǎn)關(guān)鍵詞,以及這些熱點(diǎn)關(guān)鍵詞間背后可能隱藏的關(guān)系,對(duì)于各個(gè)領(lǐng)域的研究人員、工程技術(shù)人員來說,更加清楚地掌握學(xué)科發(fā)展動(dòng)向,能夠更好地促進(jìn)科學(xué)和技術(shù)的發(fā)展。
發(fā)明內(nèi)容
本發(fā)明提供了一套應(yīng)用于學(xué)術(shù)文章的研究熱點(diǎn)關(guān)鍵詞分析流程,主要方法包括下列步驟:
步驟一.文本預(yù)處理步驟:針對(duì)需要提取研究熱點(diǎn)關(guān)鍵詞的文本集的特點(diǎn),進(jìn)行去除標(biāo)點(diǎn)、分詞、詞形還原、去除停用詞的預(yù)處理步驟,降低文本特征維度;
步驟二.文本表示步驟:步驟一處理過后的文本成為詞語(yǔ)的集合,可以通過這些詞語(yǔ)表示文本。本文中使用的文本表示模型為向量空間模型(VSM-Vector Space Model)。通過使用TF-IDF特征加權(quán)方法提取特征,為文本中的詞語(yǔ)確定權(quán)值,通過文本中的詞語(yǔ)映射為向量空間中的向量來表示文本,并去掉權(quán)值過低的詞語(yǔ),進(jìn)一步降低維度;
步驟三.層次聚類步驟:經(jīng)過步驟二,文本成為由特征構(gòu)成的向量,文本集合成為一個(gè)矩陣。使用高斯混合模型(GMM-Gaussian Mixture Model)逼近數(shù)據(jù)的分布。初始化高斯混合模型的參數(shù),將文本的特征向量分配至各個(gè)高斯模型。通過變分推斷(VariationalInference)的方法估計(jì)參數(shù),得到最接近數(shù)據(jù)分布的高斯混合模型,每個(gè)高斯模型即為聚類后產(chǎn)生的一個(gè)類。對(duì)第一次聚類后產(chǎn)生的每個(gè)類,再進(jìn)行一次變分推斷,得到一些更小的類作為子話題。
步驟四.結(jié)果生成步驟:將步驟三中第一次聚類的每個(gè)類中心取出,作為一級(jí)話題,根據(jù)權(quán)值將類中心中的詞匯排序,使用權(quán)值前三的詞語(yǔ)作為該類話題的關(guān)鍵詞。對(duì)于每個(gè)類的子類,將其類中心取出,作為二級(jí)話題,并從其中未出現(xiàn)在一級(jí)話題的詞語(yǔ)中取出權(quán)值前三的詞作為二級(jí)話題關(guān)鍵詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710112755.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 欠驅(qū)動(dòng)懸擺運(yùn)動(dòng)控制實(shí)驗(yàn)裝置
- 一種學(xué)術(shù)指數(shù)體系及其發(fā)布方法
- 學(xué)術(shù)研究信息的搜索方法、挖掘方法及裝置
- 一種計(jì)算多署名學(xué)術(shù)論文作者分值的方法
- 一種計(jì)算論文共同第一作者分值的方法
- 一種基于變分推斷的學(xué)術(shù)研究熱點(diǎn)關(guān)鍵詞提取方法
- 一種基于頻繁主題集偏好的學(xué)術(shù)論文推薦方法
- 一種基于學(xué)術(shù)文獻(xiàn)構(gòu)建的知識(shí)圖譜算法
- 一種在分布式學(xué)術(shù)數(shù)據(jù)倉(cāng)庫(kù)中檢測(cè)熱點(diǎn)學(xué)術(shù)研究話題的方法
- 教具模型(尺八內(nèi)徑拋面模型)
- 使用多機(jī)器學(xué)習(xí)核的光刻熱點(diǎn)檢測(cè)
- 一種釣魚熱點(diǎn)的檢測(cè)方法及系統(tǒng)
- 一種基于大數(shù)據(jù)識(shí)別釣魚熱點(diǎn)的方法和設(shè)備
- 一種快速分享熱點(diǎn)的方法及設(shè)備
- 一種信息獲取的方法、設(shè)備以及介質(zhì)
- 一種熱點(diǎn)切換的方法及設(shè)備
- 熱點(diǎn)開啟方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 熱點(diǎn)區(qū)域定位方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種城市交通出行問題熱點(diǎn)分級(jí)方法及裝置
- 一種基于無線熱點(diǎn)實(shí)現(xiàn)定位的方法與設(shè)備





