[發明專利]一種基于主題模型的文檔血緣關系挖掘的方法及裝置有效
| 申請號: | 202110588632.4 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113032575B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 孫孟奇;尤旸 | 申請(專利權)人: | 北京明略昭輝科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 裴素英 |
| 地址: | 100082 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題 模型 文檔 血緣關系 挖掘 方法 裝置 | ||
1.一種基于主題模型的文檔血緣關系挖掘的方法,其特征在于,包括:
對文檔集中的文檔內容進行模型訓練,生成主題模型;
針對所述文檔集中的目標文檔,基于所述目標文檔的關鍵詞對所述文檔集進行檢索,得到候選文檔列表,基于所述主題模型從所述候選文檔列表中篩選出所述目標文檔的候選文檔,并將所述目標文檔和所述候選文檔加入第一文檔血緣關系聚類集合中;其中,所述目標文檔的文檔內容與所述候選文檔的文檔內容之間的相似度大于第一預設閾值;
將目標候選文檔從所述第一文檔血緣關系聚類集合中刪除,得到第二文檔血緣關系聚類集合;其中,所述目標文檔的文檔標題與所述目標候選文檔的文檔標題之間的編輯距離不小于第二預設閾值;在計算編輯距離時不將文檔標題進行分詞,使得文檔標題能夠體現出歷史版本的迭代;
將所述第二文檔血緣關系聚類集合中的各文檔確定為同血緣關系文檔;
所述針對所述文檔集中的目標文檔,基于所述主題模型從所述文檔集中篩選出所述目標文檔的候選文檔,并將所述目標文檔和所述候選文檔加入第一文檔血緣關系聚類集合中,包括:
針對所述文檔集中的目標文檔,根據所述目標文檔的文檔內容提取所述目標文檔的關鍵詞;
基于所述目標文檔的關鍵詞對所述文檔集進行檢索,得到候選文檔列表;
基于LDA主題模型,分別計算所述目標文檔和所述候選文檔列表中各文檔對應的LDA向量;
將所述目標文檔加入初始的第一文檔血緣關系聚類集合中,若第一LDA向量與第二LDA向量之間的相似度大于第一預設閾值,則將所述第二LDA向量對應的候選文檔加入所述第一文檔血緣關系聚類集合中;其中,所述第一LDA向量為所述目標文檔的文檔內容對應的LDA向量,所述第二LDA向量為所述候選文檔列表中候選文檔的文檔內容對應的LDA向量。
2.根據權利要求1所述的方法,其特征在于,所述對文檔集中的文檔內容進行模型訓練,生成主題模型,包括:
獲取ES索引中存儲的文檔集中所有文檔的文檔內容;
依據預設的主題個數和訓練迭代次數,通過LDA算法對所述文檔集中所有文檔的文檔內容進行模型訓練,生成LDA主題模型。
3.根據權利要求1所述的方法,其特征在于,所述基于LDA主題模型,分別計算所述目標文檔和所述候選文檔列表中各文檔對應的LDA向量,包括:
基于LDA主題模型,分別計算所述目標文檔和所述候選文檔列表中各文檔的文檔內容對應的LDA向量。
4.根據權利要求1所述的方法,其特征在于,所述基于LDA主題模型,分別計算所述目標文檔和所述候選文檔列表中各文檔對應的LDA向量,包括:
分別對所述目標文檔和所述候選文檔列表中各文檔的文檔內容進行文檔摘要生成;
基于LDA主題模型,分別計算所述目標文檔和所述候選文檔列表中各文檔的文檔摘要對應的LDA向量。
5.根據權利要求1所述的方法,其特征在于,所述相似度通過海靈格距離或JS散度計算得到。
6.根據權利要求1所述的方法,其特征在于,所述將所述第二文檔血緣關系聚類集合中的各文檔確定為同血緣關系文檔,包括:
為所述第二文檔血緣關系聚類集合中的所有文檔標記相同的血緣關系標簽,從而將所述第二文檔血緣關系聚類集合中的各文檔確定為同血緣關系文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略昭輝科技有限公司,未經北京明略昭輝科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110588632.4/1.html,轉載請聲明來源鉆瓜專利網。





