[發(fā)明專利]基于自動信息篩選的企業(yè)行業(yè)分類系統(tǒng)在審
| 申請?zhí)枺?/td> | 201611270135.5 | 申請日: | 2016-12-31 |
| 公開(公告)號: | CN106779467A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設計)人: | 蔣欣辰;劉世林 | 申請(專利權)人: | 成都數(shù)聯(lián)銘品科技有限公司 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06F17/30;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610041 四川省成都市高新區(qū)*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自動 信息 篩選 企業(yè) 行業(yè) 分類 系統(tǒng) | ||
技術領域
本發(fā)明涉及信息處理領域,特別涉及基于自動信息篩選的企業(yè)行業(yè)分類系統(tǒng)。
背景技術
隨著社會的進步和市場的繁榮和發(fā)展,中國經(jīng)濟一直處于高速的發(fā)展軌道上,企業(yè)作為社會經(jīng)濟中最重要的活動主體,在經(jīng)濟中扮演著重要的角色,對于企業(yè)信息的整理和分析有助于幫助相關決策者了解該企業(yè)的經(jīng)營狀況,發(fā)現(xiàn)潛在經(jīng)營風險。企業(yè)的二級行業(yè)類別較多,如果人工對海量的企業(yè)進行分類,將耗費大量的人力。
通常會借助機器學習的手段進行數(shù)據(jù)挖掘,自動完成行業(yè)分類。主流的方法分有兩種:一種是使用傳統(tǒng)的機器學習方法,首先人工提取特征,再利用經(jīng)典的分類算法,比如SVM,樸素貝葉斯等分類器完成行業(yè)分類。另一種是利用深度學習技術,比如循環(huán)神經(jīng)網(wǎng)絡完成自動的特征提取和分類任務。二級行業(yè)分類相比一級行業(yè)分類,在經(jīng)營范圍的描述上,不同行業(yè)之間存在更多的相似性,這導致利用常規(guī)方法很難發(fā)現(xiàn)這種微小的差異,進而較難作出正確的判斷。如果使用傳統(tǒng)的機器學習方法,需要做大量的特征工程,比如TF-IDF,N-GRAM等方法提取重要的特征組成高維向量放入不同的分類器算法中進行試驗和調參,工作量大而繁重,并且都是憑借人的一些經(jīng)驗和猜想在進行的嘗試,很可能花費了很大的精力最終效果卻不顯著。即便使用深度學習的方法,比如循環(huán)神經(jīng)網(wǎng)絡,雖然免去了一些人工的特征提取的工作,但是由于經(jīng)營范圍的描述信息通常很分散,包含了多個行業(yè)的內容,單從經(jīng)營范圍無法確定哪些信息對判斷行業(yè)類別是有效的。比如,XX釀酒有限公司的經(jīng)營范圍描述是“白酒釀造,批發(fā)零售五金、日用品、飼料、建筑材料”。該描述中包含了多個行業(yè)類別,很難確定哪些內容是需要重點關注的,哪些內容是無用的,應該忽略。針對該類問題,如果人工進行判定,通常會先看一下公司名包含了“釀酒”,會將經(jīng)營范圍的描述重點放在“白酒釀造”,忽略其他無關的描述,最終確定該企業(yè)屬于“酒、飲料和精制茶制造業(yè)”。基于人腦的這種信息處理方式的啟發(fā),本發(fā)明結合循環(huán)神經(jīng)網(wǎng)絡和門限控制的方法,構建了一個能夠基于公司名自動進行信息篩選的神經(jīng)網(wǎng)絡,用于企業(yè)的二級行業(yè)分類。
發(fā)明內容
本發(fā)明的目的在于克服現(xiàn)有技術中所存在的上述不足,提供基于自動信息篩選的企業(yè)行業(yè)分類系統(tǒng),構造行業(yè)分類神經(jīng)網(wǎng)絡模型;所述行業(yè)分類神經(jīng)網(wǎng)絡模型中結合循環(huán)神經(jīng)網(wǎng)絡和門限控制的方法,使用企業(yè)名稱來對企業(yè)經(jīng)營范圍信息進行篩選,以實現(xiàn)對待分類企業(yè)二級行業(yè)的自動分類判斷。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術方案:基于自動信息篩選的企業(yè)行業(yè)分類系統(tǒng),所述系統(tǒng)包含行業(yè)分類神經(jīng)網(wǎng)絡模型;所述行業(yè)分類神經(jīng)網(wǎng)絡模型中結合循環(huán)神經(jīng)網(wǎng)絡和門限控制的方法,使用企業(yè)名稱來對企業(yè)經(jīng)營范圍信息進行篩選,實現(xiàn)對待分類企業(yè)二級行業(yè)的自動分類判斷。
具體的,所采用行業(yè)分類神經(jīng)網(wǎng)絡模型的向前算法公式如下:
hj=GRU1(xj,hj-1)
sj=GRU2(zj,sj-1)
f=σ(W(f)hT+U(f)sT)
y=softmax(b)
其中,GRU1為第一循環(huán)神經(jīng)網(wǎng)絡,hj是GRU1在輸入序列中第j個詞的輸入后生成的隱藏層狀態(tài)向量,xj是輸入序列中第j個詞的詞向量;
GRU2為第二循環(huán)神經(jīng)網(wǎng)絡;sj是GRU2在輸入序列中第j個詞的輸入后生成的隱藏層狀態(tài)向量,zj是輸入序列中第j個詞的詞向量;
f是用于信息篩選的控制門向量,hT是最后一個詞輸入后生成的隱藏層狀態(tài)向量,sT是最后一個詞輸入后生成的隱藏層狀態(tài)向量,f由hT和sT通過一個全連接的神經(jīng)網(wǎng)絡生成,其網(wǎng)絡的參數(shù)分別是W(f)和U(f),激活函數(shù)是sigmoid函數(shù),由符號σ表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數(shù)聯(lián)銘品科技有限公司,未經(jīng)成都數(shù)聯(lián)銘品科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611270135.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:事件的處理方法及裝置
- 下一篇:一種基于低功耗藍牙技術的圖書入庫新方法
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





