[發明專利]一種海關報關商品HS編碼分類方法及裝置在審
| 申請號: | 202110574885.6 | 申請日: | 2021-05-26 |
| 公開(公告)號: | CN113343640A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 路通;王文卓;鄧照飛;朱立平;易欣 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京德崇智捷知識產權代理有限公司 11467 | 代理人: | 王斌 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海關 報關 商品 hs 編碼 分類 方法 裝置 | ||
本發明公開了一種海關報關商品HS編碼分類方法及裝置,方法包括:對海關報關單數據進行重采樣,生成用于實驗的數據集;對于數據集的文字部分,使離散的詞的文字表示轉為詞的向量表示;對于數據集的HS編碼部分,使用分層編碼方式生成分層詞向量;設置多層編碼器提取文字部分詞向量的深層特征;設置多層解碼器提取文字部分詞向量和HS編碼部分的分層節點的特征;將解碼器最后一層輸出的分層節點特征輸入一個全連接的分類層得到HS編碼前綴條件概率,計算全概率,取概率最大的作為分類結果。本發明有效解決了長尾分布下數據的分類問題,在長尾分布分類任務中能增強對尾部類的分類性能,且能夠靈活地滿足類別系統動態更新的需求。
技術領域
本發明屬于海關HS編碼分類領域,尤其涉及一種基于分層多任務聯合學習的海關報關商品HS編碼分類方法。
背景技術
海關報關單是海關監管、征稅、統計以及查緝走私的重要單據,還是稅務、外匯管理部門查處偷稅漏稅和套匯犯罪活動的重要憑證。當報關單與實際情況不一致時,可能存在偽報、騙稅、走私等危害國家和人民利益的行為。因此對海關報關單的風險識別工作十分重要。報關單中對商品的歸類錯誤是海關面臨的主要風險之一,這一風險主要表現為報關商品實際類別與申報的HS編碼不匹配。
世界海關組織制定了《商品名稱及編碼協調制度的國際公約》,簡稱“協調制度”(Harmonized System,縮寫為HS),即HS編碼,以數字編碼的形式代表和識別跨境貿易的商品。海關“協調制度”規定采用6位數編碼對跨境商品進行表示和識別,且各國家或地區可根據本區域實際需要擴展出6位后的更多位數碼。商品按照種類的不同,以每2位碼為一級,從高到低逐層細分地組合得到完整的HS編碼。根據中華人民共和國海關進出口稅則,我國HS編碼有10位,分為5個層次。HS編碼作為進出口商品的通用類別標識,是海關進行商品分類管理、審核征稅標準、檢驗商品品質指標的基本依據。企業申報的HS編碼與商品實際類別不一致會引起商品的管理模式、征繳稅、檢驗標準的適用、計費、統計等相關業務的一系列工作質量問題。
報關單的人工審核方式受到審關員的知識和經驗背景,對商品類目的熟悉程度,以及人為操作等主客觀因素的影響,審單質量和審單數量都很有限。隨著跨境貿易的快速增長,對進出口商品快速、準確地分類的要求不斷提高。因此,使用歷史報關數據構建模型,利用數據技術實現對報關單的自動歸類,成為了一個緊迫的應用研究課題。如果能夠對進出口商品快速、準確地實現HS編碼分類,將有助于海關部門計稅、計費、統計等各方面業務的工作順利進行,也有助于企業避免因通關不規范而遭受裝運延誤、行政處罰等問題。
海關HS編碼分類是根據報關單中的商品描述信息為報關商品確定最匹配的10位HS類別碼的過程。商品描述信息是由一系列能夠反映商品客觀情況的要素組成的文本,這些要素被統稱為申報要素。例如,某商品的描述文本是“聚氨酯樹脂泡沫片|0|3|成分:聚氨酯樹脂|外觀:片|不與其他材料合制|泡沫塑料請注明:泡沫塑料|用途:防震緩沖|規格尺寸:1000*2000mm|品牌:無品牌|型號:CFS-20T”,由商品名稱、成分、外觀、用途、規格尺寸、型號等申報要素組成,各要素之間用豎線“|”分隔。該商品的HS編碼是3921139000,屬于泡沫聚氨酯板、片、帶、箔、扁條類商品。
通過對來自某海關的約1千萬條報關單的HS編碼的計數統計,發現HS編碼類別分布拖著一個十分長的尾部,該尾部長度占據了約95%的HS編碼類別,同時頭部很高很尖,其高度甚至超過了250000。這個統計柱狀圖尾部太長、頭部太尖,以至于無法看到占據了95%長度的尾部的HS編碼計數分布情況。在千萬量級的數據集上,有超過一半的類別,它們每類的樣本數量不超過100條;有超過80%的類別,它們每類的樣本數量不超過1000條。由此可見,HS編碼在海關進出口貿易的真實場景下,商品的類別分布非常不均衡,表現出顯著的長尾分布特征,大量的外貿份額被少數類別的商品占據,大部分類別的商品進出口份量很低。
長尾分布現象為HS編碼分類任務帶來了很大的挑戰。因此需要一種能解決HS編碼長尾分布問題的方法。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110574885.6/2.html,轉載請聲明來源鉆瓜專利網。





