[發明專利]數據去重標記碼生成方法、系統、電子設備及存儲介質在審
| 申請號: | 202110996617.3 | 申請日: | 2021-08-27 |
| 公開(公告)號: | CN113627132A | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 劉瑞熙;王兆元;李青龍 | 申請(專利權)人: | 北京智慧星光信息技術有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/216;G06F40/289;G06F40/242;G06F16/383 |
| 代理公司: | 北京智宇正信知識產權代理事務所(普通合伙) 11876 | 代理人: | 李明卓 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 標記 生成 方法 系統 電子設備 存儲 介質 | ||
本發明公開了一種數據去重標記碼生成方法、系統、電子設備及存儲介質,該方法包括:根據招投標數據集得到每一個招投標數據的招標標題、招標內容、招標編號、招標單位名稱和招標階段類型;根據上述多維度的信息得到對應的標題特征、內容特征、編號特征、單位名稱特征和階段類型特征;根據標題特征、內容特征、編號特征、單位名稱特征和階段類型特征得到每一個招投標數據對應的數據編碼;根據每一個招投標數據的標題特征、內容特征、編號特征和單位名稱特征得到每一個招投標數據對應的組編碼;根據數據編碼和組編碼得到每一個招投標數據對應的去重標記碼。該方法通過去重標記碼便可確定重復數據,無需進行相似度計算,提高了招投標數據的去重效率。
技術領域
本發明涉及數據處理中運用多維度文本特征進行去重的領域,具體涉及到一種數據去重標記碼生成方法、系統、電子設備及存儲介質。
背景技術
在大規模數據去重的方式中,較常使用的是使用TF-IDF余弦相似度通過查庫計算的方式進行去重,在數據量過大的情況下計算耗時過長,對于大批量流式處理數據入庫過慢;或者先通過simhash對文本進行編碼,再進行相似度計算的方式進行去重,simhash在處理招投標這種半結構化數據時,由于文本較短、對整體文本的simhash編碼特征少,非大段文本的特征形式處理不當導致去重效果較差,該方法也需要進行相似度計算,故也存在數據量過大的情況下計算耗時過長,對于大批量流式處理數據入庫過慢的問題。
發明內容
有鑒于此,本發明實施例提供了一種數據去重標記碼生成方法、系統、電子設備及存儲介質,以解決現有技術中招投標數據去重效率低的缺點。
為此,本發明實施例提供了如下技術方案:
根據第一方面,本發明實施例提供了一種數據去重標記碼生成方法,包括:獲取招投標數據集,所述招投標數據集中包括多個采集到的招投標數據;根據招投標數據集得到每一個招投標數據的招標標題、招標內容、招標編號、招標單位名稱和招標階段類型;根據每一個招投標數據的招標標題得到每一個招投標數據對應的標題特征;根據每一個招投標數據的招標內容得到每一個招投標數據對應的內容特征;根據每一個招投標數據的招標編號得到每一個招投標數據對應的編號特征;根據每一個招投標數據的招標單位名稱得到每一個招投標數據對應的單位名稱特征;根據每一個招投標數據的招標階段類型得到每一個招投標數據對應的階段類型特征;根據每一個招投標數據的標題特征、內容特征、編號特征、單位名稱特征和階段類型特征得到每一個招投標數據對應的數據編碼;根據每一個招投標數據的標題特征、內容特征、編號特征和單位名稱特征得到每一個招投標數據對應的組編碼;根據每一個招投標數據的數據編碼和組編碼得到每一個招投標數據對應的去重標記碼。
可選地,根據每一個招投標數據的招標標題得到每一個招投標數據對應的標題特征的步驟中,包括:獲取預設階段類別字典;根據預設階段類別字典分別去除每一個招投標數據的招標標題中的階段類型詞;對去除階段類型詞的招標標題進行分詞,得到每一個招投標數據對應的標題分詞;分別計算每一個招投標數據對應的標題分詞中每一分詞的TFIDF值;將TFIDF值高的第一預設數量的分詞作為標題提取關鍵詞;將標題提取關鍵詞按照第一預設順序進行排序,得到標題排序關鍵詞,并將標題排序關鍵詞作為每一個招投標數據對應的標題特征。
可選地,根據每一個招投標數據的招標內容得到每一個招投標數據對應的內容特征的步驟中,包括:分別對每一個招投標數據的招標內容進行分詞,得到內容分詞;根據預設停用詞字典去除內容分詞中的停用詞;對去除停用詞后的內容分詞進行詞頻統計,將詞頻高的第二預設數量的內容分詞作為第一內容關鍵詞;對去除停用詞后的內容分詞進行詞長度排序,將詞長度高的第三預設數量的內容分詞作為第二內容關鍵詞;將第一內容關鍵詞和第二內容關鍵詞中共同出現的關鍵詞作為內容提取關鍵詞;將內容提取關鍵詞按照第二預設順序進行排序,得到內容排序關鍵詞,并將內容排序關鍵詞作為每一個招投標數據對應的內容特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智慧星光信息技術有限公司,未經北京智慧星光信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110996617.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





