[發明專利]基于機器學習的移動互聯網用戶評論挖掘方法有效
| 申請號: | 201810233877.3 | 申請日: | 2018-03-21 |
| 公開(公告)號: | CN108520012B | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 張莉;黃新越;蔣競 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 祗志潔 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 移動 互聯網 用戶 評論 挖掘 方法 | ||
本發明提出了一種基于機器學習的移動互聯網用戶評論挖掘方法,屬于需求工程與數據挖掘領域。本發明包括:步驟一關注領域與標注數據的選擇、步驟二問題種類的制定、步驟三對應用程序分析比較的思路與數據、步驟四對步驟二和三中的數據進行預處理、步驟五為應用程序類型設置屬性、步驟六對每個問題種類建立一個二元分類器。本發明方法通過數據屬性的添加豐富了分類器使用的特征,通過代價敏感元分類器一定程度上解決了存在的數據不平衡問題,通過支持向量機的參數合理配置優化了分類器的效果,提高了評論分類的準確性,能靈活滿足使用者的個性化需要,數據挖掘效果優于當前最好的用戶評論分類方法。
技術領域
本發明涉及需求工程與數據挖掘領域,具體地,涉及一種基于機器學習的、對移動互聯網上用戶對軟件的評論進行挖掘的方法。
背景技術
軟件需求工程在軟件的開發與演化過程中都是不可或缺的部分,通常分為需求獲取、需求建模、形成需求規格、需求驗證與需求管理五個方面。其中,通過收集用戶使用軟件后產生的反饋信息,挖掘其中的各類需求,對軟件開發者而言有重要的價值。
隨著互聯網時代的發展,用戶反饋的獲取方式也變得更加多樣化。特別是web2.0時代之后,用戶生成內容(User Generated Content,簡稱UGC)成為了新型的用戶反饋資源。其中,用戶對于軟件的在線評論,是一種數量巨大、信息量豐富的反饋數據來源,是UGC的典型代表。用戶在線評論一般是用戶自主發出的、對產品的直接訴求,內容較為真實、可信,有較強的時效性。
在移動應用程序流行之前,對于互聯網上的用戶評論的挖掘已有不少研究。例如對汽車評價的意見挖掘,對網絡在線顧客評價中產品優缺點統計的系統等。移動互聯網興起后,在移動終端也產生了大量的在線評論信息。并且,移動應用程序(普遍稱為APP)通常具有開發周期短和迭代迅速的特點;同時,用戶群體更為廣泛,用戶需求五花八門且變化快,用戶反饋信息更加豐富也更加隨意。近幾十年已經有大量科研工作試圖從文本數據中挖掘出有用的信息,但移動應用用戶評論相對于傳統文本挖掘而言是短文本,因此可能需要采用不同于傳統文本挖掘技術的短文本理解技術。基于用戶評論實現的需求挖掘,對于軟件工程師來說具有重要的價值。
移動應用程序發布平臺(蘋果商店、Google Play商店等)讓用戶可以方便地搜尋、購買和安裝軟件應用,下載量也非常龐大,僅蘋果商店中每月即有約10億下載量。這些平臺均允許用戶為下載的應用提交反饋,打分與評論都是公開可見的。如果能利用好這些反饋信息,它們可以成為用戶與開發者交流的渠道,幫助開發者更快、更好地理解用戶的需求,并在軟件迭代中加以考慮。
許多實證性研究都表明,用戶反饋中包含很有價值的信息,如錯誤報告、功能需求和用戶體驗等;對開發者來說,應用市場中的用戶評論能夠幫助他們更好地理解用戶需求,提高軟件質量。亦有研究分析應該如何將評論進行自動有用與無用的分類,如何從反饋中抽取用戶需求等。研究還表明,由于用戶評論的數量非常龐大,并且語言的組織形式也非常自由,因此,采用手動檢查的方式很難充分地挖掘出評論中的有效信息,需要用自動化地形式來對用戶評論進行挖掘。
現有部分研究(可參見現有文件1~3)討論如何將用戶的評論內容劃分為若干種不同的類型。將用戶評論分類能夠揭示用戶意圖,幫助開發者了解用戶需求。在這一領域,現有研究有的分類種類粒度較粗;有的分類方法沒有充分利用評論屬性,評估效果還存在可以提升的空間。因此,當前在評論的處理和分類方法上還有較多的改進空間。
參考文獻:
[1]Maalej W,Nabil H.Bug report,feature request,or simply praise?onautomatically classifying app reviews[C]//2015IEEE 23rd internationalrequirements engineering conference(RE).IEEE,2015:116-125.
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810233877.3/2.html,轉載請聲明來源鉆瓜專利網。





