[發(fā)明專利]一種基于元數(shù)據(jù)和滑動(dòng)窗口的文獻(xiàn)去重方法、系統(tǒng)及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202210614285.2 | 申請(qǐng)日: | 2022-05-31 |
| 公開(公告)號(hào): | CN115048340A | 公開(公告)日: | 2022-09-13 |
| 發(fā)明(設(shè)計(jì))人: | 卓應(yīng)忠 | 申請(qǐng)(專利權(quán))人: | 重慶維普智圖數(shù)據(jù)科技有限公司 |
| 主分類號(hào): | G06F16/14 | 分類號(hào): | G06F16/14;G06F16/16;G06F16/182 |
| 代理公司: | 重慶強(qiáng)大凱創(chuàng)專利代理事務(wù)所(普通合伙) 50217 | 代理人: | 趙玉乾 |
| 地址: | 401147 重慶*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 滑動(dòng) 窗口 文獻(xiàn) 方法 系統(tǒng) 存儲(chǔ) 介質(zhì) | ||
1.一種基于元數(shù)據(jù)和滑動(dòng)窗口的文獻(xiàn)去重方法,其特征在于:包括:
S1:獲取已有文獻(xiàn)元數(shù)據(jù)Simhash指紋值;
S2:獲取待新增的文獻(xiàn)元數(shù)據(jù),計(jì)算待新增的文獻(xiàn)元數(shù)據(jù)的newhash指紋值,并使用滑動(dòng)窗口算法同Simhash指紋值匹配,將匹配結(jié)果構(gòu)成集合〇;
S3:根據(jù)集合〇中元素?cái)?shù)量判斷是否有新增文獻(xiàn);
其中,所述S2中的滑動(dòng)窗口算法具體為:按照文獻(xiàn)元數(shù)據(jù)類型,獲取該文獻(xiàn)首次出現(xiàn)的平臺(tái)及時(shí)間,以該時(shí)間為節(jié)點(diǎn)或者該平臺(tái)和時(shí)間結(jié)合為節(jié)點(diǎn),若以時(shí)間為節(jié)點(diǎn),則以該時(shí)間往前推進(jìn)預(yù)設(shè)的時(shí)間年限,選取該時(shí)間年限內(nèi)的Simhash值進(jìn)行匹配,若以平臺(tái)和時(shí)間結(jié)合為節(jié)點(diǎn),則以該文獻(xiàn)首次出現(xiàn)平臺(tái)和首次出現(xiàn)的時(shí)間,以該時(shí)間往前推進(jìn)一定的時(shí)間年限,讀取其他同類型平臺(tái)的文獻(xiàn)元數(shù)據(jù)的Simhash指紋值進(jìn)行匹配。
2.根據(jù)權(quán)利要求1所述的一種基于元數(shù)據(jù)和滑動(dòng)窗口的文獻(xiàn)去重方法,其特征在于:所述S1還包括:
S1-1:將已有的文獻(xiàn)元數(shù)據(jù)存儲(chǔ)至磁盤中,再提取文獻(xiàn)元數(shù)據(jù)中文獻(xiàn)的Simhash指紋值,并將文獻(xiàn)元數(shù)據(jù)的Simhash指紋值緩存至分布式內(nèi)存中。
3.根據(jù)權(quán)利要求2所述的一種基于元數(shù)據(jù)和滑動(dòng)窗口的文獻(xiàn)去重方法,其特征在于:所述步驟S2包括:
S2-1:將待新增文獻(xiàn)元數(shù)據(jù)存儲(chǔ)至內(nèi)存-磁盤的混合存儲(chǔ)系統(tǒng)中;
S2-2:按字段的方式提取內(nèi)存-磁盤的混合存儲(chǔ)系統(tǒng)中待新增文獻(xiàn)元數(shù)據(jù)的特征值,并進(jìn)行權(quán)重處理;
S2-3:將特征值權(quán)重進(jìn)行歸一處理,將離散的權(quán)重值進(jìn)行平滑處理;
S2-4:將讀取的特征值提取至內(nèi)存中,以64bit散列要求,對(duì)每個(gè)特征值使用相同的hash函數(shù)計(jì)算一個(gè)f位的指紋值a;
S2-5:加權(quán)處理;若指紋值a的第i位為1,(i介于1到f之間),則a的第i位加上該特征的權(quán)重;若指紋值a的第i位為0(i介于1到f之間),則a的第i位減去該特征的權(quán)重;
S2-6:將S2-5中的加權(quán)進(jìn)行累加,變成只有一個(gè)的序列串;
S2-7:將序列串進(jìn)行降維處理,并輸出newhash作為指紋值;
S2-8:使用滑動(dòng)窗口算法將newhash指紋值與分布式內(nèi)存中的文獻(xiàn)Simhash指紋值進(jìn)行海明距離比對(duì),找到符合Bit位的差異閾值的newhash指紋值,這些newhash指紋值構(gòu)成集合〇。
4.根據(jù)權(quán)利要求3所述的一種基于元數(shù)據(jù)和滑動(dòng)窗口的文獻(xiàn)去重方法,其特征在于:所述S3包括:
S3-1:若集合〇中元素?cái)?shù)量>1,則人工干預(yù)判斷newhash指紋值代表的文獻(xiàn)與分布式內(nèi)存中緩存的該Simhash指紋值對(duì)應(yīng)的文獻(xiàn)重復(fù);
S3-2:若集合〇中元素?cái)?shù)量=1,則判斷newhash指紋值代表的文獻(xiàn)與該Simhash指紋值代表的文獻(xiàn)為重復(fù)的;
S3-3:若集合〇中元素?cái)?shù)量=0,則新增一條無重復(fù)的文獻(xiàn)元數(shù)據(jù);
S3-4:根據(jù)來源數(shù)據(jù)庫的優(yōu)先級(jí)合并重復(fù)的文獻(xiàn)元數(shù)據(jù);
其中,若有新增文獻(xiàn),則將該文獻(xiàn)的newhash指紋值緩存至分布式內(nèi)存中,將該文獻(xiàn)元數(shù)據(jù)存儲(chǔ)至磁盤中。
5.根據(jù)權(quán)利要求3所述的一種基于元數(shù)據(jù)和滑動(dòng)窗口的文獻(xiàn)去重方法,其特征在于:還包括:
S4:計(jì)算完一條文獻(xiàn)元數(shù)據(jù),清理內(nèi)存-磁盤的混合存儲(chǔ)系統(tǒng)中存儲(chǔ)的該條文獻(xiàn)元數(shù)據(jù);
S5:該條文獻(xiàn)元數(shù)據(jù)處理結(jié)束,重復(fù)S2,直至待新增文獻(xiàn)元數(shù)據(jù)處理完全。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶維普智圖數(shù)據(jù)科技有限公司,未經(jīng)重慶維普智圖數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210614285.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





