[發(fā)明專利]一種基于海量數(shù)據(jù)的位置信息提取方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201611145679.9 | 申請(qǐng)日: | 2016-12-13 |
| 公開(公告)號(hào): | CN108614835A | 公開(公告)日: | 2018-10-02 |
| 發(fā)明(設(shè)計(jì))人: | 蘭燁;劉立蘭;王濤;劉卓;王海磊;王正偉;王會(huì)娟;田川;焦林 | 申請(qǐng)(專利權(quán))人: | 北京銳安科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100192 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 原始數(shù)據(jù) 位置信息提取 方法和裝置 海量數(shù)據(jù) 提取規(guī)則 字段 規(guī)則數(shù)據(jù)庫(kù) 全文數(shù)據(jù)庫(kù) 提取位置 應(yīng)用信息 用戶代理 有效數(shù)據(jù) 網(wǎng)民 網(wǎng)站 存儲(chǔ) 查詢 民警 監(jiān)督 | ||
本發(fā)明公開了一種基于海量數(shù)據(jù)的位置信息提取方法和裝置。本發(fā)明的提取方法為:1)從全文數(shù)據(jù)庫(kù)系統(tǒng)中提取原始數(shù)據(jù),并從提取的原始數(shù)據(jù)中提取公共字段和用戶代理User?Agent內(nèi)容;2)根據(jù)所述User?Agent內(nèi)容中的應(yīng)用信息在預(yù)先設(shè)定的規(guī)則數(shù)據(jù)庫(kù)中查詢對(duì)應(yīng)的提取規(guī)則,然后根據(jù)所述提取規(guī)則從所述原始數(shù)據(jù)中提取位置信息;3)將每一原始數(shù)據(jù)的所述位置信息與所述公共字段作為一有效數(shù)據(jù)進(jìn)行存儲(chǔ)。本發(fā)明便于民警對(duì)網(wǎng)民、網(wǎng)站行為進(jìn)行監(jiān)督和規(guī)范。
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)安全及大數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于海量數(shù)據(jù)的位置信息提取方法和裝置。
背景技術(shù):
互聯(lián)網(wǎng)的高速發(fā)展,使數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素,伴隨而來(lái)的是人類可以分析和處理的海量數(shù)據(jù)。在中型以上的城市如北京、上海,每天在網(wǎng)絡(luò)行為中產(chǎn)生的各類數(shù)據(jù)已經(jīng)超過(guò)PB級(jí)。LBS(Location Based Services):又稱基于位置的服務(wù),它是通過(guò)電信移動(dòng)運(yùn)營(yíng)商的無(wú)線電通訊網(wǎng)絡(luò)(如GSM網(wǎng)、CDMA網(wǎng))或外部DXXW方式(如GPS)及其他DXXW手段獲取移動(dòng)終端用戶的位置信息(地理坐標(biāo),或大地坐標(biāo)),在GIS(Geographic Information System,地理信息系統(tǒng))平臺(tái)的支持下,為用戶提供相應(yīng)服務(wù)的一種增值業(yè)務(wù)。
基于LBS的服務(wù)業(yè)務(wù)在大數(shù)據(jù)處理得到了蓬勃地發(fā)展,各種開放式API得到了廣泛的使用。如Google,就為用戶提供了開放式的API服務(wù)。注冊(cè)用戶可以根據(jù)不同的需要來(lái)使用對(duì)應(yīng)的服務(wù),如通過(guò)IP查尋經(jīng)緯度、通過(guò)WIFI MAC地址查尋、通過(guò)手機(jī)基站信息查尋地址、通過(guò)經(jīng)緯度查尋地址、通過(guò)地址查尋經(jīng)緯度等服務(wù)。同時(shí),各個(gè)行業(yè)的基于LBS的業(yè)務(wù)也在蓬勃開展。在進(jìn)行海量數(shù)據(jù)處理,尤其是在海量數(shù)據(jù)中提取位置信息,目前進(jìn)行全文檢索提取相關(guān)數(shù)據(jù)信息的算法一般是采用各種分詞技術(shù),然而傳統(tǒng)的全文檢索方法緩慢、效率低下。
發(fā)明內(nèi)容:
本發(fā)明提供一種基于海量數(shù)據(jù)的位置信息提取方法和裝置,便于民警對(duì)網(wǎng)民、網(wǎng)站行為進(jìn)行監(jiān)督和規(guī)范。
第一方面,本發(fā)明實(shí)施例提供了一種基于海量數(shù)據(jù)的位置信息提取方法,包括:
從全文數(shù)據(jù)庫(kù)系統(tǒng)TRS中提取原始數(shù)據(jù)。
從提取的原始數(shù)據(jù)中提取公共字段和用戶代理User-Agent內(nèi)容,并從所述User-Agent內(nèi)容獲取需要的應(yīng)用信息。
根據(jù)所述應(yīng)用信息中的URL信息,按照自定義正則表達(dá)式,計(jì)算出提取規(guī)則編號(hào)。在預(yù)先設(shè)定的規(guī)則數(shù)據(jù)庫(kù)中提取與計(jì)算所得編號(hào)對(duì)應(yīng)的提取規(guī)則,并根據(jù)所述提取規(guī)則從所述原始數(shù)據(jù)中提取位置信息。
將所述有效數(shù)據(jù)輸出到業(yè)務(wù)數(shù)據(jù)庫(kù)和/或bcp文件。
第二方面,本發(fā)明實(shí)施例還提供了一種基于海量數(shù)據(jù)的位置信息提取裝置,其特征在于,包括:
原始數(shù)據(jù)提取模塊,用于從全文數(shù)據(jù)庫(kù)系統(tǒng)TRS中提取原始數(shù)據(jù);
應(yīng)用信息獲取模塊,用于從提取的原始數(shù)據(jù)中提取公共字段和用戶代理User-Agent內(nèi)容,并從所述User-Agent內(nèi)容獲取應(yīng)用信息;
位置信息提取模塊,用于根據(jù)所述應(yīng)用信息在預(yù)先設(shè)定的規(guī)則數(shù)據(jù)庫(kù)中提取與所述應(yīng)用信息對(duì)應(yīng)的提取規(guī)則,并根據(jù)所述提取規(guī)則從所述原始數(shù)據(jù)中提取位置信息;
有效數(shù)據(jù)合并模塊,用于將所述位置信息與所述公共字段合并為有效數(shù)據(jù);
有效數(shù)據(jù)輸出模塊,用于將所述有效數(shù)據(jù)輸出到業(yè)務(wù)數(shù)據(jù)庫(kù)和/或bcp文件。
與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京銳安科技有限公司,未經(jīng)北京銳安科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611145679.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 原始數(shù)據(jù)處理裝置、原始數(shù)據(jù)處理方法和成像設(shè)備
- 信息監(jiān)控方法及裝置
- 一種數(shù)據(jù)存儲(chǔ)方法、數(shù)據(jù)查詢方法及相關(guān)設(shè)備
- 醫(yī)學(xué)圖像處理系統(tǒng)及其數(shù)據(jù)管理方法
- 一種用于IT系統(tǒng)運(yùn)維監(jiān)控?cái)?shù)據(jù)的存儲(chǔ)系統(tǒng)
- 使用復(fù)合數(shù)據(jù)類型顯示數(shù)據(jù)的裝置、方法及存儲(chǔ)介質(zhì)
- 基于加密算法的模型構(gòu)建方法及相關(guān)設(shè)備
- 一種數(shù)據(jù)處理系統(tǒng)、方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)生成方法、裝置和用于數(shù)據(jù)生成的裝置
- 一種知識(shí)產(chǎn)權(quán)圖形識(shí)別中增強(qiáng)分類模型抗背景變化能力的方法
- 功能命令系統(tǒng)、功能命令裝置、功能命令分析系統(tǒng)、演示系統(tǒng)及計(jì)算機(jī)可讀介質(zhì)
- 導(dǎo)航設(shè)備和評(píng)估值設(shè)置方法
- 圖像處理裝置、圖像處理方法、圖像處理程序和圖像處理系統(tǒng)
- 通知裝置、通知系統(tǒng)、通知裝置的控制方法、控制程序以及存儲(chǔ)有該程序的計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)
- 一種行車環(huán)境特征目標(biāo)信息提取方法
- 信息顯示方法及其顯示系統(tǒng)
- 基于人工智能的車牌識(shí)別方法、裝置、設(shè)備及介質(zhì)
- 一種信息提取方法、裝置及系統(tǒng)
- 基于RPA及AI的信息提取方法、裝置、設(shè)備及介質(zhì)
- 一種面向文本的相對(duì)位置信息提取方法
- 一種數(shù)據(jù)庫(kù)海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問(wèn)處理系統(tǒng)
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種海量數(shù)據(jù)的清洗方法和系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 一種海量并發(fā)性雷達(dá)數(shù)據(jù)存儲(chǔ)方法





