[發明專利]基于多源信息融合的中小微企業綜合質量畫像方法有效
| 申請號: | 202010874130.3 | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN111950932B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 曹麗娜;陳進東;張健;任智軍;樊輝 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06Q10/0631 | 分類號: | G06Q10/0631;G06F18/2135;G06F18/23213;G06F18/2411;G06F40/289 |
| 代理公司: | 北京惠智天成知識產權代理事務所(特殊普通合伙) 11681 | 代理人: | 袁瑞紅 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 信息 融合 中小 企業 綜合 質量 畫像 方法 | ||
1.基于多源信息融合的中小微企業綜合質量畫像方法,其特征在于,所述方法包括如下步驟:
(1)將企業質量畫像維度分解,構建質量畫像體系;
(2)企業數據收集和預處理;
(3)將收集到的企業數據按照類別分別設定標簽;
(4)利用標簽生成各企業質量畫像;
所述企業質量畫像維度分解為6個,包括5個外顯質量維度和1個內在質量維度;其中外顯質量維度為:
(1)一級指標——企業基本信息;其二級指標包括工商信息和行政許可信息;工商信息包括三級指標經營范圍、企業類型、企業狀態、注冊資金、實收注冊資金、成立年限;行政許可信息包括三級指標證照名稱、所屬行業、證照狀態;
(2)一級指標——知識產權信息;其二級指標包括商標信息和專利信息;商標信息包括三級指標商標數量、商標類型、馳名商標數量;專利信息包括三級指標專利數量、有效專利數量、發明專利占比;
(3)一級指標——企業經營風險;由二級指標行政處罰信息、抵質押信息和清算信息綜合反映;行政處罰信息包括三級指標近期處罰、歷史行政處罰、處罰類型和證照吊銷/撤銷;抵質押信息由三級指標被擔保債權種類、被擔保債權數額;清算信息由三級指標有無清算信息來反映;
(4)一級指標——司法風險;其二級指標為司法協助信息,三級指標包括司法協助類型、司法協助狀態和股權數額;
(5)一級指標——網絡輿情:其二級指標包括企業新聞輿情和產品質量輿情;企業新聞輿情由三級指標企業輿情事件來反映;產品質量輿情由三級指標質量評論情感來反映;
所述內在質量維度為:一級指標——產品質量信息:其二級指標包括產品資質或認證、產品質量評價、產品缺陷處置;其中產品資質或認證包括三級指標產品許可、產品標識認證和質量認證;產品質量評價包括三級指標產品質量合格率和抽查合格率;產品缺陷處置包括三級指標缺陷產品召回機制和質量爭議處置;
所述企業數據收集的方法為:利用企業工商信息作為關鍵詞,使用網絡爬蟲程序收集已公開的第三方數據,包括工商信息、經營相關的行政許可信息、知識產權信息、企業經營風險信息、司法風險信息;利用企業名稱作為關鍵詞,使用網絡爬蟲程序采集多渠道的企業輿情相關數據;根據企業產品名稱的關鍵詞收集第三方網購平臺上的商品評論數據;采用批量上傳法獲取企業內部的產品質量管理數據;
步驟(3)將收集到的企業數據按照類別設定三種標簽:
(1)標簽一:包括的企業數據維度指標為:企業基本信息、知識產權信息、企業經營風險、司法風險、產品質量信息;
(2)標簽二:包括的企業數據是網絡輿情信息維度下的三級指標之一——網絡輿情信息;
(3)標簽三:包括的企業數據為:網絡輿情信息維度下的三級指標之一——質量評論情感;
標簽一的設定方法為:
(1)設Yj為標簽變量,Xi-j為三級指標變量,依次選取Yi對應的Xi-j值作為原始矩陣,其中列是Xi-j值,行是各企業,i=1,2,……,n;j=1,2,……,m;按以下步驟進行操作:
①PCA特征提取:調用sklearn中PCA函數,計算主成分貢獻率和累加貢獻率,通過累加貢獻率篩選出質量指標的主要成分,計算各指標對于各主成分的載荷數;若Yj對應的變量Xi-j個數≤2,則省略本步驟,直接從②開始;
②K-means聚類分析:調用sklearn中KMeans包,通過kmeans聚類算法對指標下數據進行聚類分析,并計算不同類別數K值下的輪廓值;定義某個樣本點的輪廓值為:
其中disMeanin為該點與本類其他點的平均距離,disMeanout為該點與非本類點的平均距離;則所有樣本的Si均值為聚類結果的輪廓值,確定相應的聚類類別個數;
③設定標簽類別:通過對步驟②中的聚類類別進行分析,定義規則和標簽類別;
標簽二的設定方法為:
①文本分詞:下載所在行業名詞詞典、公司新聞報道正負面詞匯,利用“jieba”分詞工具,采用精確模式對產品質量評論文本進行分詞;
②文本標注:人工判斷食品行業相關新聞文本對企業的正、負面影響并進行正、負標注;
③使用Word2Vec訓練詞向量:調用gensim模塊函數,訓練Word2Vec模型,生成詞向量矩陣,從矩陣中抽取詞的向量值,每篇文本得到一個二維矩陣,行為文本,列為模型維度;
④PCA降維:由③得到矩陣數據,調用skleam中的PCA函數,通過PCA模型計算出累加貢獻率,選擇使得累加貢獻率大于90%時的前K個主成分作為SVM訓練模型的輸入,提升數據處理速度;
⑤使用SVM訓練模型:調用sklearn中svm包,采用RBF核函數,其計算公式為:
其中,x,y為樣本,||x-y||表示向量的模,γ為超參,用于調整模型復雜度;通過多次參數調整,確定分類效果最優的懲罰系數C值和參數γ值;對訓練好的模型進行測試,保障預測模型的準確性;
⑥新聞文本分類:采用Word2Vec對已切分詞的文本向量化,利用訓練好的預測模型進行分類,得到待分類新聞文本的正負向類別;
⑦設定企業形象標簽:為企業計算正向新聞占比,得到企業形象得分Z值;根據Z值整體分布情況,對不同范圍下的值劃分設定相應企業形象標簽;
標簽三的設定方法為:
①情感詞典構建:下載能夠獲取情感詞分數和程度級別副詞的詞典,并根據語料庫中常用否定詞建立否定詞詞典;
②文本分詞:下載所在行業名詞詞典、公司新聞報道正負面詞匯,利用“jieba”分詞工具,采用精確模式對產品質量評論文本進行分詞;
③計算評論情感分值:通過分詞結果遍歷出情感詞、否定詞和程度副詞;設給定句子為St,其所包含的評價短語Si的情感分值
Ei=Di×w×wj????(3)
其中,i=1,2,……,n;Di為情感詞分數,wj設定為每個程度副詞權重;初始權重w=1,當短語中有否定詞時w=-1;wj初始值為1,當短語中有程度副詞時則wj為程度副詞權重,句子情感值:
其中,Score(St)大于0的歸于正向,小于0的歸于負向;統計所有句子情感值,產品質量總體滿意度為正向句子情感的總體占比;
④設定產品質量口碑標簽:根據質量總體滿意度值的整體分布情況,對不同范圍下的值劃分設定相應質量口碑標簽。
2.根據權利要求1所述的方法,其特征在于,獲取情感詞分數的詞典為BosonNLP情感詞典,獲取程度級別副詞的詞典為Hownet情感詞典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010874130.3/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





