[發明專利]一種基于深度學習的稅務商品編碼分類方法和系統在審
| 申請號: | 201811094559.X | 申請日: | 2018-09-19 |
| 公開(公告)號: | CN109213866A | 公開(公告)日: | 2019-01-15 |
| 發明(設計)人: | 葉豐;塵健;吳鵬;單立強;王軍;朱泳存;劉海明 | 申請(專利權)人: | 浙江諾諾網絡科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06Q30/06 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 310000 浙江省杭州市西湖區雙龍街199號杭政*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標商品 商品編碼 分詞 預處理 卷積 分類 數據庫 驗證 分詞處理 網絡搭建 預先建立 自動分類 語義 測試集 關聯性 向量化 訓練集 稅務 詞語 網絡 文本 學習 制作 | ||
1.一種基于深度學習的稅務商品編碼分類方法,其特征在于,包括:
預先建立包含商品名和對應商品編碼的驗證數據庫,并制作訓練集和測試集;
對所述驗證數據庫中的商品名進行預處理,獲取相應的商品名分詞;
對所述商品名分詞進行向量化,并進行卷積網絡搭建;
對目標商品名進行預處理,獲取相應的目標商品名分詞;
通過所述卷積網絡對所述目標商品名分詞進行分類,確定所述目標商品名的類別。
2.根據權利要求1所述的方法,其特征在于,所述對所述驗證數據庫中的商品名進行預處理,獲取相應的商品名分詞,包括:
對所述驗證數據庫中的商品名進行字符解析;
剔除所述驗證數據庫中的非漢字、數字、和英文的字符,并進行商品名繁簡體轉換和英文字符大小寫轉換,得到預處理商品名;
對所述預處理商品名進行分詞,并提取相應的商品名分詞。
3.根據權利要求2所述的方法,其特征在于,所述剔除所述驗證數據庫中的非漢字、數字、和英文的字符,并進行商品名繁簡體轉換和英文字符大小寫轉換,得到預處理商品名,包括:
通過預設的繁簡體映射表對所述驗證數據庫中的商品名進行繁簡體轉換;
通過Unicode編碼范圍對所述驗證數據庫中的商品名進行英文字符的大小寫轉換以及非漢字、數字、和英文的字符的過濾。
4.根據權利要求2所述的方法,其特征在于,所述對所述商品名分詞進行向量化,并進行卷積網絡搭建,包括:
采集歷史數據中所有的商品名,經商品名預處理和分詞后,根據詞頻建立字典;
通過預設的詞向量模型對所有的商品名進行訓練,獲取相應的詞向量;
設定一個商品名分詞的最大數目,對商品名分詞進行補全,并根據所述字典查找相應的詞向量,構建卷積網絡的嵌入層;
根據所述詞向量分別構建卷積網絡的卷積層、pooling層和softmax層。
5.根據權利要求4所述的方法,其特征在于,所述通過所述卷積網絡對所述目標商品名分詞進行分類,確定所述目標商品名的類別,包括:
通過所述卷積網絡對所述目標商品名分詞進行分類,得到對應的分類結果;
將所述分類結果按照概率進行降序排列;
選取概率最大的類別作為所述目標商品名的類別。
6.根據權利要求1至5任一項所述的方法,其特征在于,在所述將所述分類結果按照概率進行降序排列之后,還包括:
獲取前N個候選類別,其中,在通過測試樣本進行測試時,分類結果的前N個候選類別中,測試樣本的分類結果正確率大于預設的閾值;
根據所述驗證數據庫和預設的商品分類編碼表,對所述目標商品名分詞按照TF-IDF特征進行相似度計算,獲取相似度最高的文本集合及相應的類別;
計算所述文本集中每一個文本與所述目標商品名的編輯距離相似度,獲取編輯距離相似度最高的目標文本及所述目標文本的類別;
判斷所述目標文本的類別是否在所述前N個候選類別中,且所述目標文本和所述目標商品名的編輯距離相似度是否大于預設的閾值;
若是,則確定所述目標文本的類別為所述目標商品名的類別;
若否,則執行步驟:選取概率最大的類別作為所述目標商品名的類別。
7.一種基于深度學習的稅務商品編碼分類系統,其特征在于,包括:
建庫模塊,用于預先建立包含商品名和對應商品編碼的驗證數據庫,并制作訓練集和測試集;
第一分詞模塊,用于對所述驗證數據庫中的商品名進行預處理,獲取相應的商品名分詞;
卷積網絡搭建模塊,用于對所述商品名分詞進行向量化,并進行卷積網絡搭建;
第二分詞模塊,用于對目標商品名進行預處理,獲取相應的目標商品名分詞;
分類模塊,用于通過所述卷積網絡對所述目標商品名分詞進行分類,確定所述目標商品名的類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江諾諾網絡科技有限公司,未經浙江諾諾網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811094559.X/1.html,轉載請聲明來源鉆瓜專利網。





