[發(fā)明專利]基于在HDP模型中引入自適應(yīng)窗口的文檔主題提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010104259.6 | 申請(qǐng)日: | 2020-02-20 |
| 公開(kāi)(公告)號(hào): | CN111339296B | 公開(kāi)(公告)日: | 2023-03-28 |
| 發(fā)明(設(shè)計(jì))人: | 羅瑜;常錦鵬;彭灣灣;曾葉;吳曉華 | 申請(qǐng)(專利權(quán))人: | 電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F16/34 |
| 代理公司: | 北京正華智誠(chéng)專利代理事務(wù)所(普通合伙) 11870 | 代理人: | 韋海英 |
| 地址: | 611731 四川省成*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hdp 模型 引入 自適應(yīng) 窗口 文檔 主題 提取 方法 | ||
本發(fā)明公開(kāi)了一種基于在HDP模型中引入自適應(yīng)窗口的文檔主題提取方法,將HDP模型與ADWIM相結(jié)合,通過(guò)似然變化檢測(cè)主題漂移,在沒(méi)有發(fā)現(xiàn)主題漂移時(shí)直接合并窗口更新模型,在主題發(fā)生漂移時(shí)劃分子窗口重新判斷是否進(jìn)行窗口合并。該模型利用自適應(yīng)窗口把文檔劃分為較小的文檔塊,通過(guò)移動(dòng)窗口保證了詞與詞之間的順序,同時(shí)通過(guò)自適應(yīng)的方式來(lái)選取模型訓(xùn)練窗口劃分,避免了像大多數(shù)方法那樣定義任意的時(shí)間片和文檔塊。
技術(shù)領(lǐng)域
本發(fā)明屬于文檔主題提取方法技術(shù)領(lǐng)域,具體涉及基于在HDP模型中引入自適應(yīng)窗口的文檔主題提取方法。
背景技術(shù)
隨著網(wǎng)絡(luò)文本的爆炸式增長(zhǎng),從海量文本提取合理的信息是件非常困難的事。在眾多的文本處理方法中,主體模型能夠?qū)Υ笠?guī)模文檔集進(jìn)行文本聚類(lèi),使得人們較快地獲取到想要的信息。近二十年來(lái),主題模型得到了快速的發(fā)展,并擴(kuò)展出很多模型。
現(xiàn)有的主題模型中,LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)主題模型雖然在文本聚類(lèi)中取得了較好的效果,但是需要手動(dòng)確定最優(yōu)的主題聚類(lèi)個(gè)數(shù),而在海量文本數(shù)據(jù)中,文檔主題數(shù)并不能確定。HDP(分層狄利克雷過(guò)程)模型是LDA主題模型無(wú)參數(shù)的一個(gè)擴(kuò)展,它能夠自動(dòng)確定文檔的主題個(gè)數(shù),訓(xùn)練前不需要預(yù)設(shè)文檔的主題個(gè)數(shù),解決了人工確定文檔主題數(shù)的問(wèn)題。現(xiàn)有的LDA模型和HDP模型是根據(jù)定義的一批文檔推斷主題分布,此設(shè)置沒(méi)有考慮文檔中詞與詞之間的順序,而基于時(shí)間片的變體模型需要按固定時(shí)間片對(duì)文檔進(jìn)行分組,但是面臨時(shí)間片難以定義的問(wèn)題。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的基于在HDP模型中引入自適應(yīng)窗口的文檔主題提取方法解決了現(xiàn)有的HDP模型提取文檔信息時(shí)需要預(yù)先定義時(shí)間片和文檔塊的問(wèn)題。
為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:基于在HDP模型中引入自適應(yīng)窗口的文檔主題提取方法,包括以下步驟:
S1、基于待提取信息的文檔生成初始HDP模型;
S2、在生成的初始HDP模型中引入自適應(yīng)窗口機(jī)制,構(gòu)建AWIHDP模型;
S3、將當(dāng)前待提取信息的文本輸入到當(dāng)前AWIHDP模型中,并對(duì)其進(jìn)行更新;
S4、判斷是否有新的待提取信息文本到達(dá);
若是,則返回步驟S3;
若否,則進(jìn)入步驟S5;
S5、將當(dāng)前AWIHDP模型提取到所有文本的主題詞分布作為文檔主題提取結(jié)果。
進(jìn)一步地,所述步驟S1具體為:
A1、從基分布H和第一聚集參數(shù)γ構(gòu)成的狄利克雷過(guò)程中,抽樣出基分布G0;
A2、從基分布G0和第二聚集參數(shù)α0構(gòu)成的狄利克雷過(guò)程中,為每篇文檔抽取主題詞分布Gj,生成HDP模型。
進(jìn)一步地,所述步驟S2中的引入自適應(yīng)窗口機(jī)制的WAIHDP模型包括HDPm子模型和HDPd子模型;
所述HDPm子模型用于文檔建模;
所述HDPd子模型用于根據(jù)滑動(dòng)窗口算法對(duì)當(dāng)前窗口進(jìn)行漂移檢測(cè)。
進(jìn)一步地,所述步驟S3具體為:
S31、將當(dāng)前待提取信息的文檔劃分為長(zhǎng)度為n的文檔塊,并將其中的第一個(gè)文檔塊添加到窗口W0中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010104259.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種減少STI HDP制成中蛋卷狀顆粒的方法
- 用于基于蜂窩小區(qū)的高度可檢測(cè)導(dǎo)頻復(fù)用的裝置和方法
- 改進(jìn)移動(dòng)站定位的增強(qiáng)導(dǎo)頻的系統(tǒng)和方法
- 單雙向混合高速數(shù)據(jù)推送系統(tǒng)及方法
- 單雙向混合高速數(shù)據(jù)推送系統(tǒng)
- 用于診斷患者的健康狀況的血流動(dòng)力學(xué)參數(shù)(HDP)監(jiān)視系統(tǒng)
- 一種皺紋盤(pán)鮑多肽HDP-1在制備治療纖維肉瘤的藥物中的用途
- 白花蛇舌草多糖及其制備方法和在制備抗補(bǔ)體藥物中的用途
- 一種基于kubernetes的HDP平臺(tái)部署方法
- 超薄橋和多管芯超細(xì)間距貼片架構(gòu)及其制造方法





