[發明專利]一種基于文本聚類的主題詞提取方法在審
| 申請號: | 202110060987.6 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112749279A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 肖林焱;楊安印 | 申請(專利權)人: | 南京中新賽克科技有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06F16/31;G06F16/33;G06F40/194;G06F40/284 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210012 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 主題詞 提取 方法 | ||
本發明公開了一種基于文本聚類的主題詞提取方法,對文本信息進行分詞處理;對干擾詞積累形成停用詞庫,加載文本分詞集合;針對處理詞文檔,計算文檔詞頻TF,計算逆文檔詞頻IDF;新建Kmeans模型,訓練出各聚類中心詞頻及其預測值,使用余弦相似度計算文本詞之間相似度;輸出Kmeans聚類結果,每個聚類集合;對各個聚類集合進行LDA文檔主題預測;針對文檔到詞的權重分布,提取TOPN主題,形成集合Mi;針對集合Mi,分詞后的文本記錄詞庫與集合Mi碰撞。本發明通過多方聯合分析,對無監督學習主題提取方法進行有益補充;不依賴現有數據分析平臺,適用于各類編程語言;結合Kmeans聚類方法,LDA主題模型分析,個性化碰撞規則,對大數據文本主題詞提取進行有效支撐。
技術領域
本發明涉及一種主題詞提取方法,尤其涉及一種基于文本聚類的主題詞提取方法。
背景技術
近年來,隨著移動互聯網的高速發展,智能終端的普及率在逐年上升,各類網站的訪問量的呈指數級的增長,產生海量文本數據,在這樣大數據的基礎上,各類紛繁復雜的數據分析模型和工具出現。
無監督學習方法中包含了聚類、降維、話題分析、圖分析,這里我們采用了成熟的Kmeans聚類、LDA主題模型融合分析方案,結合個性化分析碰撞,獲得準確的主題結果集;針對文本聚類,Kmeans聚類具有非層次化的類別的特點,采用夾角余弦計算文本詞之間的相似性。結合聚類的結果,采用LDA主題分析,通過概率分布模型獲得最有可能的主題詞的結果。此外,個性化主題碰撞規則,是對大數據文本主題詞提取的有效支撐。
在監督學習的領域中,進行文本的分類主題的提取,具有一定的局限性,采用無監督學習的文本聚類方法,能夠最大程度找到未知類別的集合。在此基礎上利用主題提取方法,獲得可靠的聚類文檔的TOP N主題,對于文檔主題的準確性矯正,通過進一步推進,將分詞后的文本記錄詞庫與主題碰撞,從而獲得主題詞。但在海量數據分析中,缺少精確獲得未知類別中文本主題詞提取規則。
發明內容
發明目的:本發明旨在提供一種能夠高效、精確地獲得主題詞的一種基于文本聚類的主題詞提取方法。
技術方案:本發明所述的一種基于文本聚類的主題詞提取方法,包括以下步驟:
步驟1:對文本信息進行分詞處理,獲得對應的分詞詞庫;
步驟2:對干擾詞積累形成停用詞庫,加載文本分詞集合,去除停用詞,保留處理詞;
步驟3:針對處理詞文檔,計算文檔詞頻TF;
步驟4:針對處理詞文檔,計算逆文檔詞頻IDF;
步驟5:新建Kmeans模型,訓練出各聚類中心詞頻及其預測值,使用余弦相似度計算文本詞之間相似度;
步驟6:輸出Kmeans聚類結果,每個聚類集合;
步驟7:對各個聚類集合進行LDA算法預測文檔主題預測,返回關鍵詞及其權重;
步驟8:針對文檔到詞的權重分布,提取TOP N主題,形成集合Mi;
步驟9:對于文檔主題的準確性矯正,針對集合Mi,分詞后的文本記錄詞庫與集合Mi碰撞。
所述方法先使用Kmeans聚類算法求出每個文檔映射到特征向量的關鍵詞及其預測值,再通過LDA算法求出特征向量各關鍵詞及其權重,最后結合個性化權重修正公式進行人為分析,進而提取出準確合理的文本主題詞及其權重分布。
在所述步驟9中,針對每個集合Mi的主題,反向關聯文本記錄關鍵詞,通過權重修正公式進行加減權,計算每個特征向量的關鍵詞權重,對存在于關鍵詞庫的特征向量關鍵詞進行權重的加強或減弱,并通過權重獲得合理且準確的主題詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中新賽克科技有限責任公司,未經南京中新賽克科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110060987.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種青藤堿生物素標記探針及其制備方法和用途
- 下一篇:PVC卷材用的抗菌涂料





