[發明專利]基于深度學習的電商異常金融商品識別方法在審
| 申請號: | 201710607516.6 | 申請日: | 2017-07-24 |
| 公開(公告)號: | CN107491433A | 公開(公告)日: | 2017-12-19 |
| 發明(設計)人: | 張林江;劉婷;王睿通 | 申請(專利權)人: | 成都知數科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06N3/04;G06N3/08;G06Q30/02 |
| 代理公司: | 成都頂峰專利事務所(普通合伙)51224 | 代理人: | 李崧巖 |
| 地址: | 610000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 異常 金融 商品 識別 方法 | ||
技術領域
本發明涉及基于深度學習的電商異常金融商品識別方法。
背景技術
電商很多涉黑、涉灰、金融類商品,比如套現,代繳流水,很多帶有明顯作弊行為,對于個人信用屬于減分項。在征信領域,這是一個很有用的信用補充數據。抓取分析購買這些異常商品人群就非常重要。傳統的識別方法存在以下缺陷:
傳統的識別方法是通過設置關鍵詞去匹配文本,這些方法在初期比較有效,但是隨著此類商品被電商平臺打壓,這些商品已經被下架或者通過文本修改逃避監管,變得沒法用簡單的關鍵詞方法識別。并且這種簡單模型需要涉及到分詞,而一般的分詞工具對于這種經常篡改變動的文本很難進行準確分詞,導致模型錯誤百出。
發明內容
本發明提供了基于深度學習的電商異常金融商品識別方法,旨在解決傳統的識別方法對經常篡改變動的文本很難進行準確分詞,導致識別準確率較差的問題。
為了解決以上技術問題,本發明通過以下技術方案實現:
基于深度學習的電商異常金融商品識別方法,依次包括以下步驟:
A、關鍵詞整理:人工整理異常商品的關鍵詞,形成異常商品的關鍵詞詞庫。
B、原始數據采集:通過異常商品的關鍵詞在電商平臺進行搜索,通過隨機采樣的方式從電商平臺爬取不同品類的商品數據,從而搜集到用于方法研究的原始數據。
C、數據清洗和標注:對原始數據進行清洗和人工標注。人工識別為異常商品標注為負樣本,正常商品標注為正樣本。
D、模型訓練樣本數據集構造:采用亞采樣法均衡正負樣本比例,形成樣本數據集。
E、樣本數據特征抽取:利用商品分類模型分別對商品名以及商品圖片進行特征抽取。
F、分類模型訓練:將樣本數據集劃分為訓練集與測試集,基于訓練集樣本的文本特征和圖片特征,利用深度學習框架訓練商品分類模型,根據模型訓練的結果,更新異常關鍵詞詞庫,不斷優化分類模型,直到模型訓練穩定。
G、模型測試:用訓練后的模型對測試集樣本進行分類測試,輸出測試集樣本屬于正常商品和異常商品的概率,將測試集樣本分類至概率較大的一類。同時依據測試集樣本的標注判斷測試集樣本分類是否準確。如果測試集樣本分類錯誤,則更新關鍵詞詞庫,并再次訓練模型,直到模型測試準確,得到最優模型。
H、模型預測:利用得到的最優模型預測模型輸出商品是負樣本的概率,當此概率大于經驗閾值時,商品標記為負樣本,否則為正樣本。對標記為負樣本的商品進行人工校驗并入庫。
進一步,特征抽取包括商品名文本特征抽取和商品圖片特征抽取。
進一步,商品名文本特征抽取框架包括以下三層:
第一層為映射層:輸入多維文本字向量,將其映射為一維字向量。
第二層為LSTM長短文本記憶層。
第三層為全連接層:將復雜的第三層神經元轉換為較為簡單的向量特征。
進一步,圖片特征抽取包括以下五層:
第一層為卷積層:抽取圖片特征。
第二層為降采樣層:將圖片特征進行壓縮。
第三層為卷積層:抽取圖片特征。
第四層為降采樣層:將圖片特征進行壓縮。
第五層為全連接層:將圖片特征轉換為簡單的向量特征。
進一步,其中分類模型框架如下:
第一層:將文本的特征向量與圖片的特征向量級聯合并。
第二層:利用softmax函數對合并后的特征進行非線性處理。
第三層:輸出商品分類概率。
進一步,商品分類模型訓練的目標函數為:
其中,為函數的交叉損失函數,為模型正則項,m為商品個數。m個商品的集合為{(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))},其中,輸出為y={-1,1},輸入為文本和圖像數據,表示為x=(text,image)。
與現有技術相比本發明的優點是:
本發明采用深度學習進行商品標題的金融異常商品分析,不需要分詞,直接輸入整個文本,進行端到端的模型訓練識別,可以節省人力,并且快速產出模型,提高生產效率。準確率得到提升,基于深度學習方法,將商品的文本和圖片信息進行有機整合,模型效果得到顯著提升,準確率從75%提升到93%。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都知數科技有限公司,未經成都知數科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710607516.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:表單設置方法和裝置
- 下一篇:基于語義相關性的文本摘要自動生成方法及裝置





