[發(fā)明專利]一種基于Spark SQL的分布式全文檢索系統(tǒng)及方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710269870.2 | 申請(qǐng)日: | 2017-04-24 |
| 公開(公告)號(hào): | CN107122443B | 公開(公告)日: | 2019-09-17 |
| 發(fā)明(設(shè)計(jì))人: | 許利杰;崔光范;劉杰;馬志柔;吳懷林;葉丹 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院軟件研究所 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33 |
| 代理公司: | 北京科迪生專利代理有限責(zé)任公司 11251 | 代理人: | 楊學(xué)明;顧煒 |
| 地址: | 100190 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 sparksql 分布式 全文 檢索系統(tǒng) 方法 | ||
本發(fā)明涉及一種基于Spark SQL的分布式全文檢索系統(tǒng)及方法,包括SQL翻譯層、數(shù)據(jù)源管理層、并行計(jì)算層、分布式存儲(chǔ)層,在SQL翻譯層中提出了基于SQL的全文檢索文法以及全文檢索SQL語(yǔ)句在SQL翻譯層各模塊間的翻譯過程;在數(shù)據(jù)源管理模塊設(shè)計(jì)了全文檢索過程的并行化方法;檢索優(yōu)化模塊中,設(shè)計(jì)了兩種索引存儲(chǔ)模型和相應(yīng)的查詢時(shí)原表數(shù)據(jù)還原策略,其中基于索引指定列存儲(chǔ)模型設(shè)計(jì)了一種用于在查詢時(shí)還原原表數(shù)據(jù)、復(fù)雜度為O(n)的分區(qū)對(duì)齊連接算法。在兩種存儲(chǔ)模型下,索引構(gòu)建時(shí)間縮短為傳統(tǒng)數(shù)據(jù)庫(kù)的0.6%/0.5%,查詢時(shí)間縮短為傳統(tǒng)數(shù)據(jù)庫(kù)的1%/10%,索引存儲(chǔ)量減少為傳統(tǒng)數(shù)據(jù)庫(kù)的55.0%。增強(qiáng)了Spark SQL數(shù)據(jù)分析功能,能夠滿足傳統(tǒng)業(yè)務(wù)遷移和現(xiàn)有業(yè)務(wù)對(duì)海量數(shù)據(jù)進(jìn)行全文檢索的需求。
技術(shù)領(lǐng)域
本發(fā)明涉及海量數(shù)據(jù)下的數(shù)據(jù)分析和信息檢索技術(shù),更具體地涉及一種基于Spark SQL的分布式全文檢索系統(tǒng)及方法。屬于軟件技術(shù)領(lǐng)域。
背景技術(shù)
隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)發(fā)展以及博客、社交網(wǎng)絡(luò),基于位置服務(wù)LBS為代表的應(yīng)用模式的出現(xiàn)(參見文獻(xiàn):孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,(01):146-169.),數(shù)據(jù)的種類和規(guī)模正以前所未有的速度增長(zhǎng),大數(shù)據(jù)中蘊(yùn)含的寶貴價(jià)值成為人們存儲(chǔ)和處理大數(shù)據(jù)的驅(qū)動(dòng)力(參見文獻(xiàn):程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國(guó)杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,(09):1889-1908.),例如,在社交網(wǎng)絡(luò)方面,F(xiàn)acebook、微博、微信等以人為核心的社交網(wǎng)絡(luò)產(chǎn)生了大量的文本、圖片等數(shù)據(jù),對(duì)這些數(shù)據(jù)形成的社交網(wǎng)絡(luò)進(jìn)行分析,發(fā)現(xiàn)人與人之間隱含的關(guān)系、存在的社區(qū);在搜索引擎方面,Google等大型互聯(lián)網(wǎng)公司通過對(duì)廣告相關(guān)數(shù)據(jù)的處理用來改善廣告的投放效果以提高點(diǎn)擊量;在醫(yī)療方面,通過對(duì)患者病歷數(shù)據(jù)和生活方式的分析,協(xié)助醫(yī)生進(jìn)行疾病診斷和醫(yī)治。數(shù)百TB甚至數(shù)十至數(shù)百PB規(guī)模的行業(yè)或企業(yè)大數(shù)據(jù)以及數(shù)據(jù)的復(fù)雜性已遠(yuǎn)遠(yuǎn)超出了現(xiàn)有傳統(tǒng)的計(jì)算技術(shù)和信息系統(tǒng)的處理能力,因此,尋求有效的大數(shù)據(jù)處理和分析技術(shù)已經(jīng)成為現(xiàn)實(shí)世界的迫切需求。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院軟件研究所,未經(jīng)中國(guó)科學(xué)院軟件研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710269870.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種SparkSQL系統(tǒng)中的數(shù)據(jù)處理方法和裝置
- 一種SparkSQL系統(tǒng)中的數(shù)據(jù)處理方法和裝置
- 一種通過頂版開票率監(jiān)控企業(yè)虛開發(fā)票的方法和系統(tǒng)
- 電網(wǎng)系統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)獲取方法和系統(tǒng)
- 一種數(shù)據(jù)查詢方法和服務(wù)器
- 一種大數(shù)據(jù)環(huán)境下的指標(biāo)計(jì)算方法
- 一種面向SparkSql的HDFS小文件實(shí)時(shí)合并實(shí)現(xiàn)方法
- 一種數(shù)據(jù)檢索方法和裝置
- 一種SparkSQL thriftserver查詢及操作Hive的權(quán)限控制的方法
- 一種批量數(shù)據(jù)入庫(kù)方法及裝置
- 關(guān)系型數(shù)據(jù)庫(kù)與全文檢索相結(jié)合的檢索方法
- 基于MySQL存儲(chǔ)引擎的融合查詢方法
- 用于給安全文件,尤其是凹版印刷的安全文件例如鈔票上漆的方法和用于實(shí)現(xiàn)該方法的上漆機(jī)器
- 安全文件的防偽系統(tǒng)和防偽方法及防偽和鑒別單元
- 一種安全文檔日志管理方法及服務(wù)器
- 一種安全文檔操作的判斷方法及裝置
- 一種權(quán)限瞬時(shí)授予與收回方法及裝置
- 一種全文索引的更新方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 全文檢索系統(tǒng)及方法
- 安全文件傳輸工具的切換方法、裝置、計(jì)算機(jī)設(shè)備和介質(zhì)





