[發(fā)明專利]一種基于數(shù)據(jù)分布的提單號分析方法在審
| 申請?zhí)枺?/td> | 202111281336.6 | 申請日: | 2021-11-01 |
| 公開(公告)號: | CN114328645A | 公開(公告)日: | 2022-04-12 |
| 發(fā)明(設計)人: | 高時超 | 申請(專利權)人: | 鈞航(武漢)物流信息技術有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市武漢東湖新技術開發(fā)區(qū)茅店山中路5號武鋼高新技術產(chǎn)業(yè)園7*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數(shù)據(jù) 分布 提單 分析 方法 | ||
本發(fā)明公開了一種基于數(shù)據(jù)分布的提單號分析方法,包括整體空間的探索,基于桶段的有效空間的探索、校驗位的規(guī)則探索和基于歷史序列數(shù)據(jù)對序列格式的提取與基于歷史序列數(shù)據(jù)對場景的預判;本方法通過基于數(shù)據(jù)分布的數(shù)據(jù)分析方法,可以對序列號內(nèi)數(shù)據(jù)進行精準預先提取,保證響應速度,并減少業(yè)務繁忙時間內(nèi)的并發(fā)量,減少對相關站點的訪問壓力;在用戶查詢的場景下,對于常見的異常格式,罕見格式進行模糊匹配,根據(jù)歷史統(tǒng)計數(shù)據(jù)可以利用序列號獲取相關的規(guī)律。
技術領域
本發(fā)明涉及序列號分析領域,具體為一種基于數(shù)據(jù)分布的提單號分析方法。
背景技術
在海運相關可獲取的公開數(shù)據(jù)中,包括船信息,箱信息,海關信息,序列信息都是基于隨機序列號生成的,而獲取有效序列號才能得到相應的海運數(shù)據(jù)。這些有效序列號往往隱藏在巨大的號段空間內(nèi),有效率一般在1000-1000000分之一,而如何及時獲取則幾乎是一個不可能的任務;為此提供了一種基于數(shù)據(jù)分布的提單號分析方法。
發(fā)明內(nèi)容
本發(fā)明的目的是針對現(xiàn)有技術的缺陷,提供一種基于數(shù)據(jù)分布的提單號分析方法,以解決上述背景技術提出的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:一種基于數(shù)據(jù)分布的提單號分析方法,具體的方法如下:
S1:整體空間的探索,基于桶段的有效空間的探索;
S11:首先預估序列號空間:根據(jù)當前序列數(shù)據(jù)整理出通用格式,從而計算出序列空間的大小;同時分析有效數(shù)據(jù)的生命周期,制定獲取策略,識別流水位校驗位;
S12:在獲取了空間的大小后,我們將空間進行桶切割,每個桶的大小固定,大約從1萬-100萬個連續(xù)序列號;
S13:對每個桶進行一定比例抽樣,確定是否為有效桶;
S14:通過摸桶結果,判斷桶的有效性,對于沒有任何有效序列的桶有如下兩種可能,從未被使用的序列空間和已經(jīng)使用過但是序列號生命周期已經(jīng)結束的序列空間;
S15:對于有效桶,為了進一步減少爬取量,對桶內(nèi)進行分段,每段進行固定數(shù)量的抽樣,確定桶內(nèi)有效序列的密度,以及序列的發(fā)生時間是否過早,從而篩選出有新鮮數(shù)據(jù)的桶和段;
S16:對有效桶段進行數(shù)據(jù)預先獲取,使用分桶分段的方式,將有效爬取率提升至20%以上;
S2:校驗位的規(guī)則探索;
S21:部分場景在序列號的末尾存在1-2位的校驗位,通過序列的逐位重復性檢查,即發(fā)現(xiàn)不存在其他位相同,該位不同的序列號,結合序列每位的出現(xiàn)概率,我們能夠確認序列號的校驗位和流水位;
S22:校驗規(guī)則的探索通過流水位的變化分析對校驗位的影響,逐步解析校驗位的生成規(guī)則,一般的序列號基本都是各位的線性組合,同時對字母進行數(shù)字映射而成,這種分析方式能夠有效解析校驗位,可以降低爬取的數(shù)量級,減少對場景訪問的壓力;
S3:基于歷史序列數(shù)據(jù)對序列格式的提取與基于歷史序列數(shù)據(jù)對場景的預判;
S31:序列號一般存在前綴、后綴和分號多種場景,同時序列也有的不同表述方式,在用戶查詢時采用其中任何一種,能夠識別出常用的序列格式,同時能夠對序列號進行標準化處理;
S32:序列格式的分析分成兩個模塊,分別是序列字數(shù)組合格式和頭部特征,通過對這兩項特征的出現(xiàn)頻率統(tǒng)計,可以有效完成對序列格式的提取與更新;
S33:通過對序列格式的規(guī)則整理,有效地對場景歸屬進行計分;從而可以支持依次訪問各場景,滿足用戶的查詢需求。
作為本發(fā)明的一種優(yōu)選技術方案,所述S13中桶的頭部會進行更高強度的摸桶,桶的頭部即序列號相對較小的序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鈞航(武漢)物流信息技術有限公司,未經(jīng)鈞航(武漢)物流信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111281336.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





