[發(fā)明專利]一種自動生成查詢語句的數(shù)據(jù)提取方法及裝置在審
| 申請?zhí)枺?/td> | 202110012787.3 | 申請日: | 2021-01-06 |
| 公開(公告)號: | CN112632110A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計)人: | 柳佳浩;徐杰;丁凱;張彬;龍騰;陳青山 | 申請(專利權(quán))人: | 上海合合信息科技股份有限公司;上海生騰數(shù)據(jù)科技有限公司;上海臨冠數(shù)據(jù)科技有限公司;上海盈五蓄數(shù)據(jù)科技有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/2457;G06F16/248 |
| 代理公司: | 上海雙霆知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31415 | 代理人: | 殷曉雪 |
| 地址: | 200436 上海市靜安區(qū)萬榮*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自動 生成 查詢 語句 數(shù)據(jù) 提取 方法 裝置 | ||
本申請公開了一種自動生成查詢語句的數(shù)據(jù)提取方法,包括如下步驟。步驟S10:動態(tài)掃描數(shù)據(jù)庫,生成固定格式的中文文本提供給用戶。步驟S20:獲取用戶在所述固定格式的中文文本上表達的查詢需求。步驟S30:根據(jù)所述查詢需求自動生成大數(shù)據(jù)結(jié)構(gòu)化查詢語言形式表示的查詢語句。步驟S40:執(zhí)行所述組裝好的查詢語句,并將至少是部分的查詢結(jié)果返回給用戶,供用戶預(yù)覽;如果用戶對預(yù)覽的查詢結(jié)果滿意,則將全部的查詢結(jié)果返回給用戶;如果用戶對預(yù)覽的查詢結(jié)果不滿意,則回到步驟S20獲取用戶在所述固定格式的中文文本上表達的調(diào)整后的查詢需求。上述方法可由用戶自助構(gòu)造查詢語句并根據(jù)預(yù)覽結(jié)果實時調(diào)整查詢語句,提高了數(shù)據(jù)提取的效率。
技術(shù)領(lǐng)域
本申請涉及一種對查詢需求進行解析,自動轉(zhuǎn)換為以大數(shù)據(jù)結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)形式表達的查詢語句,以所述查詢語句自助取出所需要的數(shù)據(jù)的數(shù)據(jù)提取(data extraction)方法。
背景技術(shù)
大數(shù)據(jù)平臺(big data platform)是指對大數(shù)據(jù)量進行存儲、運算、展現(xiàn)等的操作平臺,是一個集數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)存儲、查詢檢索、分析挖掘等應(yīng)用接口等為一體的平臺。大數(shù)據(jù)平臺允許數(shù)據(jù)開發(fā)人員或是將寫好的程序放在“云”里運行,或是使用“云”里提供的服務(wù),或二者皆是。
大數(shù)據(jù)平臺通常包括多個數(shù)據(jù)庫(database),每個數(shù)據(jù)庫包括一個或多個數(shù)據(jù)表(data table),每個數(shù)據(jù)表包括一個或多個數(shù)據(jù)字段(data field)。每個數(shù)據(jù)庫有數(shù)據(jù)庫名稱,部分或全部的數(shù)據(jù)庫有注釋。每個數(shù)據(jù)表有數(shù)據(jù)表名稱,部分或全部的數(shù)據(jù)表有注釋。每個數(shù)據(jù)字段有數(shù)據(jù)字段名稱,部分或全部的數(shù)據(jù)字段有注釋。數(shù)據(jù)庫名稱、數(shù)據(jù)表名稱、數(shù)據(jù)字段名稱通常為英文字符與阿拉伯?dāng)?shù)字的組合,較難理解。數(shù)據(jù)庫注釋、數(shù)據(jù)表注釋、數(shù)據(jù)字段注釋通常為中文或英文的詳細描述內(nèi)容,易于理解。
大數(shù)據(jù)結(jié)構(gòu)化查詢語言是指在大數(shù)據(jù)平臺架構(gòu)下的結(jié)構(gòu)化查詢語言,包括Hive-SQL、Presto語法等。
在大數(shù)據(jù)平臺中,經(jīng)常會出現(xiàn)業(yè)務(wù)方需要從大量數(shù)據(jù)中獲取某類特定條件下的數(shù)據(jù)進行查驗的情況。傳統(tǒng)的做法一般是業(yè)務(wù)方直接聯(lián)系數(shù)據(jù)開發(fā)人員或是數(shù)據(jù)分析師從數(shù)據(jù)庫中使用各種結(jié)構(gòu)化查詢語言構(gòu)造查詢語句,然后在大數(shù)據(jù)平臺運行對應(yīng)的查詢語句,手動導(dǎo)出查詢結(jié)果,下載至業(yè)務(wù)方。如果需要微調(diào)需求,業(yè)務(wù)方需要重新找到數(shù)據(jù)開發(fā)人員或是數(shù)據(jù)分析師,重新進行查詢語句的開發(fā)及運行、輸出查詢結(jié)果文件等,流程復(fù)雜。總之,不熟悉代碼的業(yè)務(wù)方獲取所需數(shù)據(jù)具有非常大的難度。
發(fā)明內(nèi)容
本申請所要解決的技術(shù)問題是提供一種不熟悉代碼的業(yè)務(wù)方可以自行構(gòu)造查詢語句,并利用所述查詢語句在大數(shù)據(jù)平臺進行查詢,能夠預(yù)覽至少是部分的查詢結(jié)果,并能根據(jù)預(yù)覽的查詢結(jié)果自行調(diào)整查詢語句,最終自行輸出全部查詢結(jié)果的數(shù)據(jù)提取方法。
為解決上述技術(shù)問題,本申請?zhí)岢隽艘环N自動生成查詢語句的數(shù)據(jù)提取方法,包括如下步驟。步驟S10:動態(tài)掃描數(shù)據(jù)庫,解析數(shù)據(jù)庫、數(shù)據(jù)表、數(shù)據(jù)字段的注釋,生成固定格式的中文文本“數(shù)據(jù)庫注釋-數(shù)據(jù)表注釋-數(shù)據(jù)字段注釋”提供給用戶。步驟S20:獲取用戶在所述固定格式的中文文本上表達的查詢需求;所述查詢需求是“數(shù)據(jù)庫注釋-數(shù)據(jù)表注釋-數(shù)據(jù)字段注釋”與運算符的組合。步驟S30:根據(jù)所述查詢需求自動生成大數(shù)據(jù)結(jié)構(gòu)化查詢語言形式表示的查詢語句;具體依次包括:步驟S32:使用正則表達式對所述查詢需求進行文本替換;步驟S34:將所述文本替換后的查詢需求轉(zhuǎn)換為逆波蘭式;步驟S36:將所述逆波蘭式的查詢需求組裝為大數(shù)據(jù)結(jié)構(gòu)化查詢語言形式表示的可以執(zhí)行的查詢語句;組裝好的查詢語句是數(shù)據(jù)字段名稱與操作符的組合。步驟S40:執(zhí)行所述組裝好的查詢語句,并將至少是部分的查詢結(jié)果返回給用戶,供用戶預(yù)覽;如果用戶對預(yù)覽的查詢結(jié)果滿意,則將全部的查詢結(jié)果返回給用戶;如果用戶對預(yù)覽的查詢結(jié)果不滿意,則回到步驟S20獲取用戶在所述固定格式的中文文本上表達的調(diào)整后的查詢需求。上述方法(實施例一)可由用戶自助構(gòu)造查詢語句并根據(jù)預(yù)覽結(jié)果實時調(diào)整查詢語句,提高了數(shù)據(jù)提取的效率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海合合信息科技股份有限公司;上海生騰數(shù)據(jù)科技有限公司;上海臨冠數(shù)據(jù)科技有限公司;上海盈五蓄數(shù)據(jù)科技有限公司,未經(jīng)上海合合信息科技股份有限公司;上海生騰數(shù)據(jù)科技有限公司;上海臨冠數(shù)據(jù)科技有限公司;上海盈五蓄數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110012787.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種電子商務(wù)用條碼掃描裝置
- 下一篇:一種目標受眾占比計算方法及裝置





