[發明專利]一種基于數據分布的提單號分析方法在審
| 申請號: | 202111281336.6 | 申請日: | 2021-11-01 |
| 公開(公告)號: | CN114328645A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 高時超 | 申請(專利權)人: | 鈞航(武漢)物流信息技術有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市武漢東湖新技術開發區茅店山中路5號武鋼高新技術產業園7*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 分布 提單 分析 方法 | ||
1.一種基于數據分布的提單號分析方法,其特征在于:具體的方法如下:
S1:整體空間的探索,基于桶段的有效空間的探索;
S11:首先預估序列號空間:根據當前序列數據整理出通用格式,從而計算出序列空間的大??;同時分析有效數據的生命周期,制定獲取策略,識別流水位校驗位;
S12:在獲取了空間的大小后,我們將空間進行桶切割,每個桶的大小固定,大約從1萬-100萬個連續序列號;
S13:對每個桶進行一定比例抽樣,確定是否為有效桶;
S14:通過摸桶結果,判斷桶的有效性,對于沒有任何有效序列的桶有如下兩種可能,從未被使用的序列空間和已經使用過但是序列號生命周期已經結束的序列空間;
S15:對于有效桶,為了進一步減少爬取量,對桶內進行分段,每段進行固定數量的抽樣,確定桶內有效序列的密度,以及序列的發生時間是否過早,從而篩選出有新鮮數據的桶和段;
S16:對有效桶段進行數據預先獲取,使用分桶分段的方式,將有效爬取率提升至20%以上;
S2:校驗位的規則探索;
S21:部分場景在序列號的末尾存在1-2位的校驗位,通過序列的逐位重復性檢查,即發現不存在其他位相同,該位不同的序列號,結合序列每位的出現概率,我們能夠確認序列號的校驗位和流水位;
S22:校驗規則的探索通過流水位的變化分析對校驗位的影響,逐步解析校驗位的生成規則,一般的序列號基本都是各位的線性組合,同時對字母進行數字映射而成,這種分析方式能夠有效解析校驗位,可以降低爬取的數量級,減少對場景訪問的壓力;
S3:基于歷史序列數據對序列格式的提取與基于歷史序列數據對場景的預判;
S31:序列號一般存在前綴、后綴和分號多種場景,同時序列也有的不同表述方式,在用戶查詢時采用其中任何一種,能夠識別出常用的序列格式,同時能夠對序列號進行標準化處理;
S32:序列格式的分析分成兩個模塊,分別是序列字數組合格式和頭部特征,通過對這兩項特征的出現頻率統計,可以有效完成對序列格式的提取與更新;
S33:通過對序列格式的規則整理,有效地對場景歸屬進行計分;從而可以支持依次訪問各場景,滿足用戶的查詢需求。
2.根據權利要求1所述的一種基于數據分布的提單號分析方法,其特征在于:所述S13中桶的頭部會進行更高強度的摸桶,桶的頭部即序列號相對較小的序列。
3.根據權利要求1所述的一種基于數據分布的提單號分析方法,其特征在于:所述S32中字數組合是指字母和數字組成序列的基本規則,頭部特征是指序列前部的字母和數字組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鈞航(武漢)物流信息技術有限公司,未經鈞航(武漢)物流信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111281336.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





