[發明專利]基于機器學習的移動互聯網用戶評論挖掘方法有效
| 申請號: | 201810233877.3 | 申請日: | 2018-03-21 |
| 公開(公告)號: | CN108520012B | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 張莉;黃新越;蔣競 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 祗志潔 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 移動 互聯網 用戶 評論 挖掘 方法 | ||
1.一種基于機器學習的移動互聯網用戶評論挖掘方法,包括如下步驟:
步驟一:對待研究領域的應用程序的用戶評論進行抽樣;
步驟二:確定用戶評論中包含的問題種類,人工對抽樣評論進行標注,并對標注結果進行檢查驗證;
步驟三:獲取待分析的應用程序的評論數據集;
步驟四:對步驟二驗證后的標注評論數據集和步驟三獲得的評論數據集進行預處理,預處理包括:分詞,采用矢量空間模型與TF-IDF算法來建立詞頻向量;TF表示詞頻,IDF表示逆向文件頻率;將每條評論用一個詞頻向量來表示;
其特征在于,
步驟五:設置一個標識應用程序類型的屬性,該屬性值代表兩類應用程序,一類應用程序僅由開發者提供服務和內容,另一類應用程序中用戶存在著與其他人或企業的聯系與交流;為驗證后的標注的評論數據集和步驟四獲得的用戶評論數據集中的每條評論的詞頻向量中添加該標識應用程序類型的屬性;標識應用程序類型的屬性以離散屬性的形式添加到每條評論的詞頻向量中;
步驟六:對每個問題種類建立一個二元分類器,將步驟二驗證后的評論數據集作為訓練集,將步驟三獲取的用戶評論數據集作為預測集,利用每個問題種類的二元分類器進行分類;
所述的步驟六中,所建立的二元分類器使用線性支持向量機,并添加有代價敏感元分類器,通過為代價敏感元分類器設置不同的代價矩陣取值來進行分類,并選擇效果最優的代價矩陣;
對每個問題種類,在對每條評論的詞頻向量增加標識應用程序類型的屬性后,進行如下操作:①將驗證后的評論數據集分為訓練數據與測試數據,通過WEKA提供的CostSensitiveClassifier類作為元分類器,并采用WEKA提供的支持向量機實現SMO類的默認參數,得到分類模型及其評估效果;其中,通過為CostSensitiveClassifier類所需代價矩陣設置不同的取值,將得到不同的評估效果;在多次學習后,選擇效果最優時的代價矩陣取值作為后面預測時的參數;②將驗證后的評論數據集整體作為訓練集,步驟四的評論數據集作為預測集,以①中得到的效果最優時的代價矩陣取值作為參數,通過WEKA提供的CostSensitiveClassifier類作為元分類器,并采用WEKA提供的支持向量機實現SMO類的默認參數,建立分類模型,得到預測集的分類結果。
2.根據權利要求1所述的方法,其特征在于,所述的步驟四中,采用結巴分詞,同時刪除單個的數字和非中文字符,并保留停用詞。
3.根據權利要求1所述的方法,其特征在于,所述的步驟四中,在構建詞頻向量時,過濾掉在評論數據集中出現不到三次的字詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810233877.3/1.html,轉載請聲明來源鉆瓜專利網。





