[發明專利]一種基于主題模型的文檔血緣關系挖掘的方法及裝置有效
| 申請號: | 202110588632.4 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113032575B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 孫孟奇;尤旸 | 申請(專利權)人: | 北京明略昭輝科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 裴素英 |
| 地址: | 100082 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主題 模型 文檔 血緣關系 挖掘 方法 裝置 | ||
本申請提供了一種基于主題模型的文檔血緣關系挖掘的方法及裝置,其中,該方法包括:基于文檔集中的文檔內容生成主題模型;基于主題模型從文檔集中篩選出目標文檔的候選文檔,并將目標文檔和候選文檔加入第一文檔血緣關系聚類集合中;目標文檔與候選文檔的文檔內容之間的相似度大于第一預設閾值;將目標候選文檔從第一文檔血緣關系聚類集合中刪除得到第二文檔血緣關系聚類集合;目標文檔與目標候選文檔的文檔標題之間的編輯距離不小于第二預設閾值;將第二文檔血緣關系聚類集合中的各文檔確定為同血緣關系文檔。本申請可簡化每一篇文檔的計算過程,減少計算量,提高處理的效率,更加適合大規模文檔的處理,而且可提升文檔血緣關系挖掘的準確性。
技術領域
本申請涉及深度學習技術/自然語言處理技術領域,尤其是涉及一種基于主題模型的文檔血緣關系挖掘的方法及裝置。
背景技術
隨著社會與科技的發展,現在已經進入到了信息時代,幾乎所有的企業都有著大量的文檔資料,甚至每天都會有很多新的文檔產出。對于任何一個企業來說,其積累的文檔數據都是十分珍貴的。這些企業積累的文檔數據中,很多文檔都有著版本的迭代關系,比如某一產品說明文檔的不同版本,這些版本的迭代關系又可以稱為文檔之間的血緣關系。文檔之間的血緣關系代表著文檔之間的隱含聯系,文檔血緣關系挖掘對于文檔數據的日常管理和檢索有著極大的幫助,會給工作人員在使用這些文檔數據的過程中帶來很大的便利。
但是,由于文檔的數量較多,在大量的文檔中,帶有同一血緣關系的文檔一般只有很少的一部分,并且會在文檔集中出現多種不同的文檔血緣關系,特別是在實際情況中很少有帶有人工標記的數據,這些為文檔血緣關系挖掘帶來了較大的難度。
除了人為設定文檔版本信息的管理方式以外,現有的文檔血緣關系挖掘方案一般包括以下兩種方案。
方案一:計算文檔集中文檔內容字符串之間的編輯距離,通過對編輯距離的比較來分析文檔內容之間的異同。
在方案一中,對于短的、較為簡單的文本有著比較好的效果,但是文檔血緣關系是一種較為復雜的情況,很多時候并不能做出準確的判斷,例如,帶有文檔血緣關系的兩個文檔可能在文檔長度以及文檔內容上具有較大的差異。另外,對于大量文檔數據的情況下,進行文檔內容的兩兩比較會有效率過低,耗費時間較長等問題。
方案二:通過文檔內容所對應的simhash值來進行文檔內容的相似度度量,計算simhash值的海明距離,得出文檔內容之間的異同。
在方案二中,根據文檔內容所對應的simhash值進行文檔內容相似度判別,僅僅是從文本的字符串結構信息來進行文本的相似度判別。文本本身是帶有語義信息的,脫離語義信息的文本相似度判斷會帶來較大的誤差,對結果的影響較大。
發明內容
有鑒于此,本申請的目的在于提供一種基于主題模型的文檔血緣關系挖掘的方法及裝置,以簡化每一篇文檔的計算過程,減少計算量,提高處理的效率,更加適合大規模文檔的處理,而且可提升文檔血緣關系挖掘的準確性。
第一方面,本申請實施例提供了一種基于主題模型的文檔血緣關系挖掘的方法,包括:
對文檔集中的文檔內容進行模型訓練,生成主題模型;
針對所述文檔集中的目標文檔,基于所述主題模型從所述文檔集中篩選出所述目標文檔的候選文檔,并將所述目標文檔和所述候選文檔加入第一文檔血緣關系聚類集合中;其中,所述目標文檔的文檔內容與所述候選文檔的文檔內容之間的相似度大于第一預設閾值;
將目標候選文檔從所述第一文檔血緣關系聚類集合中刪除,得到第二文檔血緣關系聚類集合;其中,所述目標文檔的文檔標題與所述目標候選文檔的文檔標題之間的編輯距離不小于第二預設閾值;
將所述第二文檔血緣關系聚類集合中的各文檔確定為同血緣關系文檔。
在一種可能的實施方式中,所述對文檔集中的文檔內容進行模型訓練,生成主題模型,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略昭輝科技有限公司,未經北京明略昭輝科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110588632.4/2.html,轉載請聲明來源鉆瓜專利網。





