[發(fā)明專(zhuān)利]一種基于改進(jìn)加權(quán)LDA模型的話題發(fā)現(xiàn)方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202210144021.5 | 申請(qǐng)日: | 2022-02-17 |
| 公開(kāi)(公告)號(hào): | CN114528376A | 公開(kāi)(公告)日: | 2022-05-24 |
| 發(fā)明(設(shè)計(jì))人: | 杜小軍;杜樂(lè);杜登斌 | 申請(qǐng)(專(zhuān)利權(quán))人: | 武漢東湖大數(shù)據(jù)交易中心股份有限公司 |
| 主分類(lèi)號(hào): | G06F16/33 | 分類(lèi)號(hào): | G06F16/33;G06F40/279;G06F40/30;G06N7/00 |
| 代理公司: | 武漢紅觀專(zhuān)利代理事務(wù)所(普通合伙) 42247 | 代理人: | 趙志汝 |
| 地址: | 430000 湖北省武漢市東湖新技術(shù)開(kāi)*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 改進(jìn) 加權(quán) lda 模型 話題 發(fā)現(xiàn) 方法 系統(tǒng) | ||
1.一種基于改進(jìn)加權(quán)LDA模型的話題發(fā)現(xiàn)方法,其特征在于,所述方法包括:
S1,采集特定情況下的多源樣本數(shù)據(jù)集,將多源樣本數(shù)據(jù)集轉(zhuǎn)換為可描述的文檔,并進(jìn)行預(yù)處理,得到文本數(shù)據(jù);
S2,采用TextRank算法來(lái)提取文本數(shù)據(jù)中的關(guān)鍵詞,并計(jì)算各關(guān)鍵詞的權(quán)重值;
S3,基于各關(guān)鍵詞的權(quán)重值構(gòu)建加權(quán)LDA模型,并對(duì)加權(quán)LDA模型進(jìn)行優(yōu)化訓(xùn)練,得到用于話題發(fā)現(xiàn)的LDA模型;
S4,獲取新的多源數(shù)據(jù),將其轉(zhuǎn)化為測(cè)試文本,輸入至用于話題發(fā)現(xiàn)的LDA模型中得到測(cè)試文本的話題。
2.如權(quán)利要求1所述的一種基于加權(quán)LDA模型的話題發(fā)現(xiàn)方法,其特征在于,步驟S1具體包括:
所述多源樣本數(shù)據(jù)集包括文本、語(yǔ)音、圖像以及視頻;
通過(guò)接口服務(wù)采集、物聯(lián)網(wǎng)感知獲取、數(shù)據(jù)庫(kù)同步、文件同步以及數(shù)據(jù)爬取的方式采集數(shù)據(jù);
所述預(yù)處理包括去噪、去特殊字符以及去停用詞處理。
3.如權(quán)利要求1所述的一種基于改進(jìn)加權(quán)LDA模型的話題發(fā)現(xiàn)方法,其特征在于,步驟S3中,采用TextRank算法來(lái)提取文本數(shù)據(jù)中的關(guān)鍵詞具體包括:
S201,將文本數(shù)據(jù)按照完整句子進(jìn)行分割,即S={s1,s2,…,sn};
S202,對(duì)每個(gè)句子進(jìn)行分詞和詞性標(biāo)注處理,只保留名詞、動(dòng)詞以及形容詞,即si={ti,1,ti,2,…,ti,m},ti,j是候選關(guān)鍵詞,i=1,2,…,n,j=1,2,…,m;
S203,構(gòu)建一個(gè)無(wú)向有權(quán)網(wǎng)絡(luò)圖模型G=(V,E),將每個(gè)候選關(guān)鍵詞作為一個(gè)候選關(guān)鍵詞節(jié)點(diǎn),采用共現(xiàn)關(guān)系構(gòu)造兩個(gè)候選關(guān)鍵詞節(jié)點(diǎn)之間的邊;
S204,根據(jù)無(wú)向有權(quán)網(wǎng)絡(luò)圖模型迭代計(jì)算每個(gè)候選關(guān)鍵詞節(jié)點(diǎn)的節(jié)點(diǎn)權(quán)重值WS,并采用詞向量改進(jìn)節(jié)點(diǎn)權(quán)重值,直至收斂;
S205,得到所有節(jié)點(diǎn)權(quán)重值,進(jìn)行降序排列,得到topK個(gè)候選關(guān)鍵詞作為最終關(guān)鍵詞。
4.如權(quán)利要求3所述的一種基于改進(jìn)加權(quán)LDA模型的話題發(fā)現(xiàn)方法,其特征在于,步驟S203具體包括:
構(gòu)建一個(gè)無(wú)向有權(quán)網(wǎng)絡(luò)圖模型G=(V,E),V是候選關(guān)鍵詞節(jié)點(diǎn)集合V={v1,v2,…,vM},E是候選關(guān)鍵詞節(jié)點(diǎn)之間的連接邊集合E={(v1,v2),(v1,v3),…,(vM,vM-2),(vM,vM-1)},(vh,vt)表示候選關(guān)鍵詞節(jié)點(diǎn)vh和候選關(guān)鍵詞節(jié)點(diǎn)vt之間存在一條連接邊,任意兩個(gè)候選關(guān)鍵詞節(jié)點(diǎn)之間都有一條連接邊,h,t=1,2,…,M。
5.如權(quán)利要求4所述的一種基于改進(jìn)加權(quán)LDA模型的話題發(fā)現(xiàn)方法,其特征在于,步驟S204具體包括:
將所有連接邊的權(quán)重值設(shè)置為1,各候選關(guān)鍵詞節(jié)點(diǎn)的初始權(quán)重值設(shè)置為N為候選關(guān)鍵詞節(jié)點(diǎn)的總個(gè)數(shù),利用所述候選關(guān)鍵詞的角余弦位距構(gòu)建權(quán)重轉(zhuǎn)移概率矩陣Q,其表達(dá)式為:
其中,qht表示候選關(guān)鍵詞的角余弦位距,h,t=1,2,…,N,其計(jì)算公式為:
其中,為候選關(guān)鍵詞節(jié)點(diǎn)vh的詞向量,為候選詞節(jié)點(diǎn)vt的詞向量,Wh為原始權(quán)重轉(zhuǎn)移概率矩陣W的第h列所有元素和;
最終節(jié)點(diǎn)權(quán)重值的計(jì)算公式為:
WS(vh)=(1-d)+d*Q*WS(vt)
其中,d為阻尼系數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于武漢東湖大數(shù)據(jù)交易中心股份有限公司,未經(jīng)武漢東湖大數(shù)據(jù)交易中心股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210144021.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 光掃描裝置以及圖像形成裝置
- 基于LDA主題模型的中醫(yī)藥數(shù)據(jù)挖掘方法
- 一種用于LDA的外腔鎖模波長(zhǎng)合束裝置和方法
- 高功率板條激光放大器
- 一種基于潛在狄利克雷分配(LDA)模型的關(guān)鍵詞推薦方法和系統(tǒng)
- 一種基于K-means和LDA雙向驗(yàn)證的網(wǎng)絡(luò)行為習(xí)慣聚類(lèi)方法
- 一種基于word2vec?LDA模型的文本主題詞提取方法
- 一種基于平行語(yǔ)料庫(kù)的跨語(yǔ)種新聞主題相似性對(duì)比方法
- 信息推薦方法及裝置
- 興趣點(diǎn)數(shù)據(jù)獲取方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備





