[發明專利]一種面向紙包裝及其相關行業的企業多元標簽標識方法在審
| 申請號: | 201911335749.0 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111191001A | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 陳家銀;龔小龍;陳曦;麻志毅;彭軍民 | 申請(專利權)人: | 浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州融方專利代理事務所(普通合伙) 33266 | 代理人: | 沈相權 |
| 地址: | 311201 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 紙包裝 及其 相關 行業 企業 多元 標簽 標識 方法 | ||
1.一種面向紙包裝及其相關行業的企業多元標簽標識方法,其特征在于按以下步驟進行:
(一)、多元標簽體系構建:
企業多元標簽是指利用那些沒有直接商業價值的企業數據,通過清洗、整理、挖掘,并抽象出能直接滿足業務需求的信息,然后以多個標簽的形式展示出來,支持企業精準分類、高效復雜查詢相關需求;
本發明利用企業公開的七個特征數據,具體包括“公司名稱”、“注冊地址”、“注冊資本”、“公司類型”、“所屬行業”、“經營范圍”、“公司簡介”,構建面向紙包裝及其相關行業的企業多元標簽體系;
該標簽體系主要涵蓋五個維度:運輸距離、紙包裝需求量、紙包裝類型、企業營銷關系和行業類別;其中運輸距離包含5個標簽、紙包裝需求量有3個標簽、紙包裝類型5個標簽、企業營銷關系有3個標簽、行業類別有198個標簽,共計214個標簽;
下面詳細介紹這五個維度上的標簽:
①運輸距離標簽,是企業之間的地理位置信息的概括,具體取值為“同區”、“同市”、“同省”、“國內”、“國外”;該類別標簽主要從企業“注冊地址”特征數據上識別出來,有的“公司名稱”也涵蓋與運輸距離標簽相關的信息;運輸距離標簽是為了解決紙包裝行業運輸距離限制的問題,能讓市場人員快速評估潛在客戶與自身工廠之間的運輸距離;
②紙包裝需求量標簽,是一個企業對紙包裝需求量信息的概括,具體取值為“量大”、“量中”、“量小”;該類別標簽主要依賴企業的“所屬行業”、“注冊資本”和“公司類型”三個特征數據;有了這類標簽,可便捷知道潛在客戶的重要性;
③紙包裝類型標簽,具體取值為“紙箱”、“紙盒”,“紙袋”,表示一個企業所需求的紙包裝主要屬于哪種類型,可從“所屬行業”進行判斷識別;
④企業營銷關系標簽,具體取值為“同行”、“客戶”、“供應商”;它對一個公司的上下游企業進行分類,主要從企業“所屬行業”和“經營范圍”兩個特征上的數據進行識別;有了企業營銷關系標簽,可讓紙包裝行業的公司輕松知道其他行業的企業與自己的關系,進而采取不同的應對策略;
⑤行業類型標簽,主要參考國家2017年發布行業分類標準,以及紙包裝行業的市場特點和業務需求,在國家行業分類標準的基礎上進行縮減和修改,重新制定了一套面向紙包裝行業的行業分類標簽,主要包括“制造業”和“交通運輸、倉儲和郵政業”;因考慮到很多行業是對紙包裝沒有需求的,以“其他行業”的標簽進行展示;
在上述的多元標簽體系中,運輸距離、紙包裝需求量、紙包裝類型、企業營銷關系維度只包含一級標簽,行業類別維度包含三級標簽且存在層次關系,其他維度標簽與行業類別標簽上都存在相關性;在上述的標簽體系,如果一個企業在行業類別維度上匹配到“其他行業”標簽,那么該企業其他標簽都為空,即不是考慮范圍的企業;除上述情況外,每個企業將會得到7個對應多元標簽;
(二)、多元標簽識別:
目前關于多元標簽的學習算法有很多,主要可以分為兩大類:一是基于問題轉化的方法,簡稱:Problem Transformation,解決思路是轉化問題數據,使之適用現有的算法,二是基于算法適應的方法,簡稱:Algorithm Adaptation,針對某一特定的算法進行擴展,從而能夠直接處理多元標簽問題;前者主要是傳統的機器學習方法,后者主要是基于深度學習的方法;
考慮到基于傳統機器學習的方法簡單、適合對單維度標簽進行識別,本發明先利用這類方法分別在四個維度標簽進行迭代識別,解決標注數據缺乏的問題;具體步驟:(1)基于規則生成少量標注數據,利用KNN、決策樹和二分類三個模型進行訓練;(2)利用訓練好的三個模型對未標記數據進行識別,若識別結果一致,放入標記數據集合,若不一致,交給人工進行校正;(3)重復前兩步,迭代形成新的標記數據;有了足夠的標記數據,考慮標簽之間的相互關系,最后使用XML-CNN深度學習模型,對所有類型標簽一起識別,提升準確率,也同時解決多個單獨模型后期維護困難的問題;
①基于規則生成少量初始數據:
在標簽體系的四個維度上,分別基于規則啟發的形式,生成各自標簽對應的標記數據;(1)在運輸距離標簽上,利用網上的地名詞庫表和公司類型詞庫在對應的企業信息上進行查找匹配,主要匹配比較規律的數據,然后轉成對應的標簽;(2)在行業類別標簽上,本發明是利用制定的紙包裝行業分類的標準,整理出一個簡單的行業類別映射詞庫,使用雙數組Tire樹的方法與“所屬行業”、“經營范圍”的前幾個詞進行匹配,識別出少量的標簽;(3)在企業營銷關系上,是通過識別的行業標簽和主營產品來判斷企業關系,例如若是“造紙和紙制品業行業”,可識別為“同行”標簽;(4)在紙包裝需求量和紙包裝類型上,根據行業知識和業務經驗,利用“所屬行業”、“注冊資本”和“公司類型”進行規則啟發,比如一家企業是家電行業,則紙包裝類型為“紙箱”,若是股份制企業或者“注冊資本”大于5000萬人民幣,則紙包裝需求量為“量大”;通過上述的規則啟發,生成初始的帶標記數據集S0,進入下一個環節;
②多模型識別迭代:
在上一步驟生成的少量標記數據S0上,本發明使用傳統常用的算法KNN、決策樹和二分類的方法進行迭代訓練學習,生成大量標注數據;具體是在單個標簽維度上訓練三個對應模型,接著對未標記數據進行預測,若三個模型預測的結果是一致的,該條數據就可以加入訓練數據集中;若不一致,則交給人工進行校正,再加入訓練集中,進行下次迭代,當訓練數據集超過一定量,如20萬條,就利用深度模型的方法建立一個完整的多元標簽識別算法;設定初始數據為S0(分訓練集和測試集),未標記數據集為D={(x1,y1),(x2,y2),...,(xn,yn)},xi={xi1,xi2,..,xi6},xi代表每條數據有6個對應的特征數據向量,每個向量是特征數據文本分詞后,利用word2vec訓練的詞向量按行進行拼接而成,xi∈Rh*d,其中h為每個特征向量長度,d為詞向量的維度,一般取100維;yi為對應標簽的取值,yi屬于[L1,L2,..,Lt],n為樣本數量,t為標簽的個數;識別過程中都將訓練樣本轉成單個標簽的二分類進行識別;
②.1KNN識別模型:
KNN模型思想是計算兩兩樣本的距離,然后判斷未知樣本更接近哪些已知樣本;然后利用投票的方式決定未知樣本的標簽;損失函數采用常用的平方損失函數,距離計算公式如下:
一般取p=2的歐式距離來計算,當一個預測樣本跟周圍k個樣本緊鄰,取k個樣本標簽類別最多的一類為該預測樣本的標簽;
②.2決策樹:
在決策樹選擇上,選擇了CART分類樹,是使用基尼系數來衡量信息純度的,具體為:
其中pi是樣本屬于i類別的概率,這個過程采用隨機森林的集成方法,考慮到該步驟就是多算法的融合,采用CART分類樹的方法;
②.3二分類:
二分類方法的思路是按照標簽數量分別建立分類器,分類方法可為邏輯回歸、SVM,本發明選擇的是SVM的方法,SVM是指支持向量,預測時將每個分類器預測的結果加起來即為最終的結果;
在數據集S0分別訓練上述三個模型,對應為f1,f2,f3,采用F值評價標準,將各個模型調式到最優;對同一條未標記數據識別的結果分別是r1,r2,r3,若r1=r2=r3,不需要校正,這里的數據是指xj,yj;否則,人工參與校正;將新產生的標注數據加入S0,按上述方式進行迭代;
③XML-CNN企業多元標簽識別:
當標注數據集合滿足一定量后,應用XML-CNN深度模型來訓練一個完整版的識別模型;其原因是將標簽之間的關聯關系信息進行表達學習,提高標簽整體識別效果;XML-CNN模型是CNN模型的一個變體,CNN是指卷積神經網絡,相比其他深度模型,如雙向循環神經網絡、transformer模型,模型運行效率要高很多而且識別效果最佳;具體是將企業各個信息維度按詞的粒度進行表征、接著卷積、動態池化、然后加全連接層、最后以sigmoid二元損失的方式進行輸出,轉成多元標簽的概率問題,若概率大于制定的閾值,就輸出該標簽;
(1)Embedding:
將一個企業按信息維度表征成e1:m=[e1,..,em]∈Rm*d,其中m為七個維度信息中文本總長度;其中“經營范圍”和“公司簡介”有長度限制,若文本長度超過200就進行截斷,“注冊資本”里的數字整體作為一個詞進行處理;d為詞的維度大小,通常100維;
(2)Convoluation:
ci=gc(vTei:j+h-1),卷積核大小v∈Rf*d,一般f取2,3,4,表示不同的窗口大小,抽取N-gram特征,使用不同的卷積核,抽取不同層面的語義信息,核數量一般取128;一個卷積核得到c=[c1,..,cr]的卷積序列,r=m-h+1;
(3)Dynamic Max Pooling:
卷積后,將c平均分成p段(本發明p取3,因為標簽體系最大深度為3),然后每段取最大值,最后輸出,P(c)=[max{c1:r/p},..,max{cr-r/p:r}];
(4)Fully connected bottleneck layer:
將動態池化后的結果加入一個瓶頸狀的全連接層,也就是該的層隱藏單元數量遠遠小于輸出層的標簽數量,這樣的好處就是提高擬合能力;f=wog(whP),其中,Wh∈Rh×t×p andWo∈RL×h,t為卷積核數量,h為該層隱藏單元數量,L為輸出的標簽數量,g為激活函數,采用tanh;全連接層后面接著輸出層,使用sigmoid函數進行預測;
(5)Loss function
使用的損失函數為二分類損失函數,表達式為:
其中:σ是sigmoid function,
在進行評價的時候采用排序領域的DCG@K和NDCG@K方法,K=7另外外加二分類規則進行限制——如果一個標簽的父類預測錯誤,那么不論子類預測的對否,都視為該條數據預測錯誤;NDCG表示歸一化折損累積增益,將每個預測列表的標簽相關評分值reli相加,再除以位置的對數值,意味越靠前的標簽越重要,NDCG是在DCG基礎上進行歸一化;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司,未經浙江大勝達包裝股份有限公司;浙江省北大信息技術高等研究院;杭州未名信科科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911335749.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:頁面資源的更新方法、裝置、計算機設備和存儲介質
- 下一篇:一種藥品審計方法





