[發明專利]一種基于口碑的P2P平臺風險分析方法有效
| 申請號: | 202010163040.3 | 申請日: | 2020-03-10 |
| 公開(公告)號: | CN111428510B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 孫西超;張曉芳 | 申請(專利權)人: | 蚌埠學院 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06F40/284;G06N3/08;G06Q40/06 |
| 代理公司: | 合肥維可專利代理事務所(普通合伙) 34135 | 代理人: | 吳明華 |
| 地址: | 233000 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 口碑 p2p 平臺 風險 分析 方法 | ||
1.一種基于口碑數據的P2P平臺風險分析方法,其特征在于:包括:
(11)采集目標P2P平臺口碑文本數據并進行預處理過程,用矩陣方式表示口碑文本數據的特征屬性,記為第二特征屬性集;
(12)采用文本主題發現算法,獲取每一條口碑文本數據中包含的主題Kn,其中n表示所有口碑文本數據包含的主題總數;
(13)統計涉及主題Kn的口碑文本數據條數mn,并對涉及主題Kn的mn條口碑文本數據進行情感傾向分類;
所述步驟(11)中的預處理過程包括分詞過程和特征編碼過程,所述分詞過程采用Jieba分詞方法對口碑文本數據分詞,由詞語組成的詞集表示口碑文本數據,并對詞集中的詞語進行去噪處理;所述特征編碼過程采用詞袋模型對數據進行特征化,以包含文本特征信息的向量表示文本數據;
所述步驟(12)中的文本主題發現算法,具體為:
(51)建立數據集,采用基于維基百科詞向量的特征擴展方法獲取擴展文本數據,并將擴展文本數據經過步驟(11)中的預處理過程,獲取第一特征屬性集;
(52)搭建主題發現算法模型,其中,
(521)對于口碑文本數據中的每個詞語wi,選擇一個主題z的公式為:
其中,z∈{1,2,...K};z-i是當前文本中除去詞語wi后剩余詞語的主題集合;xL是每一條口碑文本數據的第一特征屬性集;nl,z是擴展文本數據中主題為z的詞語的個數;nz,i是口碑文本數據和擴展文本數據中主題為z的詞語wi的個數和;
對于擴展文本數據中的每個詞語wi,選擇一個主題z的公式為:
其中,xS是每一條口碑文本數據的第二特征屬性集,ns,z是口碑文本數據中主題為z的詞語的個數,均值μ,協方差為δ2;對于每一個主題k,λk是向量,其維度與文本類型向量xL和xS相同;
(522)在每個詞語主題值更新的條件下,采用L-BFGS優化方法優化參數λ,進而優化口碑文本數據和擴展文本數據各自的狄利克雷先驗值αL和αS,αL和αS分別為擴展文本數據集和口碑文本數據集的狄利克雷分布的主題先驗參數;
(523)當每個口碑文本數據的每個詞語的主題值以及狄利克雷先驗值αL和αS穩定后,通過如下的公式進行統計和計算,獲得模型的兩個參數:口碑文本數據和擴展文本數據的主題-詞語分布以及口碑文本數據集的主題分布θ,
其中,nk,t為擴展文本數據集和口碑文本數據集中主題為k的詞語t的個數;
其中,ns,k口碑文本數據中主題為k的詞語的個數,其中口碑文本數據的主題為{θs,1,θs,2,...θs,k}中最大值對應的主題k的值;
(53)訓練模型,基于擴展文本數據集和口碑文本數據集,初始化β和δ兩個參數,通過高斯函數初始化矩陣λ,設置每次試驗的迭代次數,進行模型訓練,直至當每個口碑文本數據的每個詞語的主題值以及狄利克雷先驗值αL和αS穩定后,獲得模型的兩個參數,口碑文本數據和擴展文本數據的主題-詞語分布以及口碑文本數據集的主題分布θ;
(54)將待分析口碑文本數據對應的第二特征屬性和第一特征屬性輸入訓練好的模型,獲取待分析口碑文本數據的包含的主題。
2.根據權利要求1所述的一種基于口碑數據的P2P平臺風險分析方法,其特征在于:所述預處理過程還包括特征選擇過程,用于從分詞過程后的詞集中過濾掉沒有實際意義的詞語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蚌埠學院,未經蚌埠學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010163040.3/1.html,轉載請聲明來源鉆瓜專利網。





