[發(fā)明專利]超大文本數(shù)據(jù)同步到搜索引擎的方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201710684158.9 | 申請(qǐng)日: | 2017-08-11 |
| 公開(kāi)(公告)號(hào): | CN107463692B | 公開(kāi)(公告)日: | 2019-10-18 |
| 發(fā)明(設(shè)計(jì))人: | 田立娜;高軍;王可鑫;段文良 | 申請(qǐng)(專利權(quán))人: | 山東合天智匯信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/31;G06F16/182;G06F16/953 |
| 代理公司: | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250000 山東省濟(jì)南市高新區(qū)舜*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 超大 文本 數(shù)據(jù) 同步 搜索引擎 方法 系統(tǒng) | ||
本發(fā)明公開(kāi)了一種超大文本數(shù)據(jù)同步到搜索引擎的方法和系統(tǒng),所述方法包括將待同步的超大文本數(shù)據(jù)進(jìn)行規(guī)范化;將規(guī)范化的超大文本數(shù)據(jù)按行切割,獲取多個(gè)碎片文件,并將所述多個(gè)碎片文件批量上傳同步到Hadoop分布式文件系統(tǒng)集群;所述Hadoop分布式文件系統(tǒng)集群將所述多個(gè)碎片文件存儲(chǔ)至hive的外鏈表,創(chuàng)建hive與ElasticSearch的數(shù)據(jù)對(duì)應(yīng)的視圖表,指定待同步ElasticSearch的服務(wù)器節(jié)點(diǎn),將外鏈表中的數(shù)據(jù)同步至視圖表,實(shí)現(xiàn)超大文本數(shù)據(jù)向ElasticSearch的同步。本發(fā)明能夠避免因數(shù)據(jù)不規(guī)范問(wèn)題導(dǎo)致的同步中斷,并且有效的提高了同步效率,簡(jiǎn)化了操作方式。
技術(shù)領(lǐng)域
本發(fā)明涉及本發(fā)明涉及大數(shù)據(jù)處理領(lǐng)域,是一種針對(duì)超大文本數(shù)據(jù)同步到搜索引擎的方法和系統(tǒng)。
背景技術(shù)
隨著網(wǎng)絡(luò)和信息技術(shù)的迅猛發(fā)展,人們可以獲得越來(lái)越多的數(shù)字化信息,但同時(shí)也投入了越來(lái)越多時(shí)間和精力對(duì)信息進(jìn)行組織和整理。同一份文本數(shù)據(jù),有可能會(huì)被不同的廠商、系統(tǒng)所使用,因此將超大文本數(shù)據(jù)信息同步到各種大數(shù)據(jù)平臺(tái)成為了一種關(guān)鍵技術(shù)。而目前針對(duì)超大文本數(shù)據(jù)同步主要存在以下問(wèn)題:大文本中的數(shù)據(jù)的格式錯(cuò)亂復(fù)雜、形式不統(tǒng)一在處理數(shù)據(jù)同步時(shí)候會(huì)遇到很大的瓶頸;但是數(shù)據(jù)來(lái)源無(wú)論是從互聯(lián)網(wǎng)采集還是從其他廠商獲獲取,得到的文件都有可能是一個(gè)上百G或者更大的文本文件,針對(duì)這種文件我們使用可視化編輯器查看編輯數(shù)據(jù)是無(wú)法實(shí)現(xiàn)的,甚至還會(huì)導(dǎo)致服務(wù)器直接宕機(jī),因此無(wú)法通過(guò)這種方式對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理;再者,在某些特定的場(chǎng)景下由于硬件的限制無(wú)論是磁盤、內(nèi)存、CPU都達(dá)不到高性能的配置時(shí),我們還需要對(duì)這種超大文件數(shù)據(jù)進(jìn)行處理分析,同時(shí)進(jìn)行數(shù)據(jù)同步到ElasticSearch搜索服務(wù)引擎變的比較困難。
目前需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問(wèn)題是:如何避免數(shù)據(jù)同步過(guò)程中可能的中段問(wèn)題以及提高同步效率。
發(fā)明內(nèi)容
為了解決上述問(wèn)題,本發(fā)明提供一種針對(duì)超大文件數(shù)據(jù)同步到ElasticSearch的機(jī)制,該機(jī)制通過(guò)特定數(shù)據(jù)切割方法,數(shù)據(jù)規(guī)范定義處理大文本中的數(shù)據(jù)并且進(jìn)行分批分量的數(shù)據(jù)同步。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種超大文本數(shù)據(jù)同步到搜索引擎的方法,包括:
步驟1:將待同步的超大文本數(shù)據(jù)進(jìn)行規(guī)范化。
步驟2:將規(guī)范化的超大文本數(shù)據(jù)按行切割,獲取多個(gè)碎片文件,并將所述多個(gè)碎片文件批量上傳同步到Hadoop分布式文件系統(tǒng)集群;
步驟3:所述Hadoop分布式文件系統(tǒng)集群將所述多個(gè)碎片文件存儲(chǔ)至hive的外鏈表,創(chuàng)建hive與ElasticSearch的數(shù)據(jù)對(duì)應(yīng)的視圖表,指定待同步ElasticSearch的服務(wù)器節(jié)點(diǎn),將外鏈表中的數(shù)據(jù)同步至視圖表,實(shí)現(xiàn)超大文本數(shù)據(jù)向ElasticSearch的同步。
進(jìn)一步地,所述步驟1包括:
步驟101:對(duì)待同步的超大文本數(shù)據(jù)逐行讀取并進(jìn)行校驗(yàn),判斷每行是否符合規(guī)則,若判斷出具有不符合規(guī)則的行數(shù)據(jù),創(chuàng)建臨時(shí)文件,將不符合規(guī)則的行數(shù)據(jù)輸出到臨時(shí)文本;
步驟102:接收用戶對(duì)臨時(shí)文件的編輯處理,得到符合規(guī)則的行數(shù)據(jù);
步驟103:逐行對(duì)所述超大文本數(shù)據(jù)進(jìn)行校驗(yàn),采用臨時(shí)文本中編輯處理后的行數(shù)據(jù)對(duì)所述超大文本數(shù)據(jù)中不符合規(guī)則的行進(jìn)行替換;
步驟104:重復(fù)執(zhí)行上述步驟,直到全部數(shù)據(jù)符合規(guī)則;
進(jìn)一步地,所述規(guī)則由數(shù)據(jù)生成者和使用者共同制定,用于規(guī)定每行數(shù)據(jù)遵循的規(guī)則。
進(jìn)一步地,,所述步驟3包括:
步驟301:所述Hadoop分布式文件系統(tǒng)集群為每個(gè)碎片文件指定一個(gè)分區(qū)存儲(chǔ);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東合天智匯信息技術(shù)有限公司,未經(jīng)山東合天智匯信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710684158.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





