[發明專利]基于語義的文檔查重方法及裝置在審
| 申請號: | 202210182346.2 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114564935A | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 李靖;鄭邦東;林明;單晟 | 申請(專利權)人: | 中國建設銀行股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 郝博;沈珍珠 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 文檔 方法 裝置 | ||
本發明公開了一種基于語義的文檔查重方法及裝置,可應用于人工智能技術領域,該方法包括:生成文檔集的語義向量集,所述文檔集包括待查重文檔和多個歷史文檔;對語義向量集進行向量量化,獲得壓縮后的向量集;基于壓縮后的向量集,檢索出與待查重文檔距離最近的歷史文檔,將所述與待查重文檔距離最近的歷史文檔,確定為相似文檔;對待查重文檔句子分割,獲得第一句子集合,對相似文檔進行句子分割,獲得第二句子集合;對第一句子集合和第二句子集合中的句子進行兩兩組合,獲得多組句子對;從多組句子對中,篩選出相似句子對。本發明可以實現對文檔進行查重,效率高。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種基于語義的文檔查重方法及裝置。
背景技術
本部分旨在為權利要求書中陳述的本發明實施例提供背景或上下文。此處的描述不因為包括在本部分中就承認是現有技術。
電子類媒體在攥寫文檔的時候,或者某些文檔需要查詢是否重復等功能的時候,需要從海量歷史文檔中找出主題,特別是語義相關的文檔,然后對找出的文檔和待檢查文檔進行比對,以實現查重,因此,目前需要一種高效率的文檔查重方法。
發明內容
本發明實施例提供一種基于語義的文檔查重方法,用以實現對對文檔進行查重,效率高,該方法包括:
生成文檔集的語義向量集,所述文檔集包括待查重文檔和多個歷史文檔;
對語義向量集進行向量量化,獲得壓縮后的向量集;
基于壓縮后的向量集,檢索出與待查重文檔距離最近的歷史文檔,將所述與待查重文檔距離最近的歷史文檔,確定為相似文檔;
對待查重文檔句子分割,獲得第一句子集合,對相似文檔進行句子分割,獲得第二句子集合;
對第一句子集合和第二句子集合中的句子進行兩兩組合,獲得多組句子對;
從多組句子對中,篩選出相似句子對。
本發明實施例還提供一種基于語義的文檔查重裝置,用以實現對文檔進行查重,效率高,該裝置包括:
語義向量集生成模塊,用于生成文檔集的語義向量集,所述文檔集包括待查重文檔和多個歷史文檔;
向量量化模塊,用于對語義向量集進行向量量化,獲得壓縮后的向量集;
相似文檔確定模塊,用于基于壓縮后的向量集,檢索出與待查重文檔距離最近的歷史文檔,將所述與待查重文檔距離最近的歷史文檔,確定為相似文檔;
句子分割模塊,用于對待查重文檔句子分割,獲得第一句子集合,對相似文檔進行句子分割,獲得第二句子集合;
句子對獲得模塊,用于對第一句子集合和第二句子集合中的句子進行兩兩組合,獲得多組句子對;
相似句子對篩選模塊,用于從多組句子對中,篩選出相似句子對。
本發明實施例還提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述基于語義的文檔查重方法。
本發明實施例還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述基于語義的文檔查重方法。
本發明實施例還提供一種計算機程序產品,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時實現上述基于語義的文檔查重方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司,未經中國建設銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210182346.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:目標對象文本段落劃分方法
- 下一篇:一種動力總成冷卻系統、冷卻控制方法及汽車





