[發(fā)明專利]一種基于改進加權LDA模型的話題發(fā)現(xiàn)方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210144021.5 | 申請日: | 2022-02-17 |
| 公開(公告)號: | CN114528376A | 公開(公告)日: | 2022-05-24 |
| 發(fā)明(設計)人: | 杜小軍;杜樂;杜登斌 | 申請(專利權)人: | 武漢東湖大數(shù)據(jù)交易中心股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/279;G06F40/30;G06N7/00 |
| 代理公司: | 武漢紅觀專利代理事務所(普通合伙) 42247 | 代理人: | 趙志汝 |
| 地址: | 430000 湖北省武漢市東湖新技術開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 加權 lda 模型 話題 發(fā)現(xiàn) 方法 系統(tǒng) | ||
本發(fā)明提出了一種基于改進加權LDA模型的話題發(fā)現(xiàn)方法及系統(tǒng),其方法包括:采集特定情況下的多源樣本數(shù)據(jù)集,將多源樣本數(shù)據(jù)集轉換為可描述的文檔,并進行預處理,得到文本數(shù)據(jù);采用TextRank算法來提取文本數(shù)據(jù)中的關鍵詞,并計算各關鍵詞的權重值;基于各關鍵詞的權重值構建加權LDA模型,并對加權LDA模型進行優(yōu)化訓練,得到用于話題發(fā)現(xiàn)的LDA模型;獲取新的多源數(shù)據(jù),將其轉化為測試文本,輸入至用于話題發(fā)現(xiàn)的LDA模型中得到測試文本的話題。本發(fā)明解決了現(xiàn)有技術中話題提取過于片面,不能準確地概括出整個文本核心內容的問題,通過改進的加權LDA模型,能夠更有效的抽取其中的隱藏主題,選取出更加合理的話題。
技術領域
本發(fā)明涉及互聯(lián)網數(shù)據(jù)挖掘技術領域,尤其是涉及一種基于改進加權LDA 模型的話題發(fā)現(xiàn)方法及系統(tǒng)。
背景技術
隨著人工智能和數(shù)字經濟的快速發(fā)展,數(shù)據(jù)呈現(xiàn)出規(guī)模龐大、更新速度快、多源異構以及價值密度低等特點。由于數(shù)據(jù)來源、數(shù)據(jù)結構以及數(shù)據(jù)標準不同,且多源異構數(shù)據(jù)再類型、性質、形式、內容和時空上存在極大的差異,容易導致數(shù)據(jù)信息共享和互聯(lián)互通障礙,傳統(tǒng)的數(shù)據(jù)處理技術不能滿足從海量數(shù)據(jù)中快速獲取認知知識與信息的分析需求。
在信息傳播速度飛快的互聯(lián)網時代,社交平臺逐漸成為大眾獲取并傳播新聞資訊的主要途徑之一,有些人憑借著社交平臺其多媒體化性以及交互性傳播負面言論,以博得大眾關注來獲取更多的流量。造成這種局面的很大一部分原因是許多新聞的話題斷章取義不夠全面,引起了很大的爭議,為了打造文明的社交平臺,從海量信息中獲取關鍵話題顯得尤其重要。
發(fā)明內容
有鑒于此,本申請?zhí)岢隽艘环N基于改進加權LDA模型的話題發(fā)現(xiàn)方法及系統(tǒng),用于解決現(xiàn)有技術中話題提取過于片面,不能準確地概括出整個文本核心內容的問題。
本發(fā)明的技術方案是這樣實現(xiàn)的:
本發(fā)明提出了一種基于改進加權LDA模型的話題發(fā)現(xiàn)方法,其方法包括:
S1,采集特定情況下的多源樣本數(shù)據(jù)集,將多源樣本數(shù)據(jù)集轉換為可描述的文檔,并進行預處理,得到文本數(shù)據(jù);
S2,采用TextRank算法來提取文本數(shù)據(jù)中的關鍵詞,并計算各關鍵詞的權重值;
S3,基于各關鍵詞的權重值構建加權LDA模型,并對加權LDA模型進行優(yōu)化訓練,得到用于話題發(fā)現(xiàn)的LDA模型;
S4,獲取新的多源數(shù)據(jù),將其轉化為測試文本,輸入至用于話題發(fā)現(xiàn)的LDA 模型中得到測試文本的話題。
在以上技術方案的基礎上,優(yōu)選的,步驟S1具體包括:
所述多源樣本數(shù)據(jù)集包括文本、語音、圖像以及視頻;
通過接口服務采集、物聯(lián)網感知獲取、數(shù)據(jù)庫同步、文件同步以及數(shù)據(jù)爬取的方式采集數(shù)據(jù);
所述預處理包括去噪、去特殊字符以及去停用詞處理。
在以上技術方案的基礎上,優(yōu)選的,步驟S3中,采用TextRank算法來提取文本數(shù)據(jù)中的關鍵詞具體包括:
S201,將文本數(shù)據(jù)按照完整句子進行分割,即S={s1,s2,…,sn};
S202,對每個句子進行分詞和詞性標注處理,只保留名詞、動詞以及形容詞,即si={ti,1,ti,2,…,ti,m},ti,j是候選關鍵詞,i=1,2,…,n,j=1,2,…,m;
S203,構建一個無向有權網絡圖模型G=(V,E),將每個候選關鍵詞作為一個候選關鍵詞節(jié)點,采用共現(xiàn)關系構造兩個候選關鍵詞節(jié)點之間的邊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢東湖大數(shù)據(jù)交易中心股份有限公司,未經武漢東湖大數(shù)據(jù)交易中心股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210144021.5/2.html,轉載請聲明來源鉆瓜專利網。





