[發(fā)明專利]一種基于文本聚類的主題詞提取方法在審
| 申請?zhí)枺?/td> | 202110060987.6 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112749279A | 公開(公告)日: | 2021-05-04 |
| 發(fā)明(設(shè)計)人: | 肖林焱;楊安印 | 申請(專利權(quán))人: | 南京中新賽克科技有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06F16/31;G06F16/33;G06F40/194;G06F40/284 |
| 代理公司: | 南京蘇高專利商標事務(wù)所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210012 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 主題詞 提取 方法 | ||
1.一種基于文本聚類的主題詞提取方法,其特征在于,包括以下步驟:
步驟1:對文本信息進行分詞處理,獲得對應(yīng)的分詞詞庫;
步驟2:對干擾詞積累形成停用詞庫,加載文本分詞集合,去除停用詞,保留處理詞;
步驟3:針對處理詞文檔,計算文檔詞頻TF;
步驟4:針對處理詞文檔,計算逆文檔詞頻IDF;
步驟5:新建Kmeans模型,訓(xùn)練出各聚類中心詞頻及其預(yù)測值,使用余弦相似度計算文本詞之間相似度;
步驟6:輸出Kmeans聚類結(jié)果,每個聚類集合;
步驟7:對各個聚類集合進行LDA算法預(yù)測文檔主題預(yù)測,返回關(guān)鍵詞及其權(quán)重;
步驟8:針對文檔到詞的權(quán)重分布,提取TOP N主題,形成集合Mi;
步驟9:對于文檔主題的準確性矯正,針對集合Mi,分詞后的文本記錄詞庫與集合Mi碰撞。
2.根據(jù)權(quán)利要求1所述的一種基于文本聚類的主題詞提取方法,其特征在于,所述方法先使用Kmeans聚類算法求出每個文檔映射到特征向量的關(guān)鍵詞及其預(yù)測值,再通過LDA算法求出特征向量各關(guān)鍵詞及其權(quán)重,最后結(jié)合個性化權(quán)重修正公式進行人為分析,進而提取出準確合理的文本主題詞及其權(quán)重分布。
3.根據(jù)權(quán)利要求1所述的一種基于文本聚類的主題詞提取方法,其特征在于,在所述步驟9中,針對每個集合Mi的主題,反向關(guān)聯(lián)文本記錄關(guān)鍵詞,通過權(quán)重修正公式進行加減權(quán),計算每個特征向量的關(guān)鍵詞權(quán)重,對存在于關(guān)鍵詞庫的特征向量關(guān)鍵詞進行權(quán)重的加強或減弱,并通過權(quán)重獲得合理且準確的主題詞。
4.根據(jù)權(quán)利要求1所述的一種基于文本聚類的主題詞提取方法,其特征在于,在所述步驟7中,輸入文檔轉(zhuǎn)化為詞頻索引向量,使用LDA算法預(yù)測文檔在topic上的分布,對關(guān)鍵詞所屬特征向量疊乘累加,得到文檔到詞的權(quán)重分布。
5.根據(jù)權(quán)利要求3所述的一種基于文本聚類的主題詞提取方法,其特征在于,所述權(quán)重修正公式中的權(quán)重強化公式為:pi=xi/2+0.5,權(quán)重弱化公式為:pi=xi/2,其中xi為原權(quán)重,pi為修正后的權(quán)重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京中新賽克科技有限責任公司,未經(jīng)南京中新賽克科技有限責任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110060987.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種青藤堿生物素標記探針及其制備方法和用途
- 下一篇:PVC卷材用的抗菌涂料





