[發明專利]一種移動應用內生大數據統計分析方法有效
| 申請號: | 201710575488.4 | 申請日: | 2017-07-14 |
| 公開(公告)號: | CN107451116B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 任偉;張耀成 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/211;G06F16/35 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 許美紅 |
| 地址: | 430074 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 移動 應用 大數 據統計 分析 方法 | ||
1.一種移動應用內生大數據統計分析方法,其特征在于,包括以下步驟:
獲取移動應用內生評論數據,通過自然語言處理算法對評論數據進行句法分析和語法分析,并根據分析結果對評論數據進行分割和重組,實現非結構化的評論數據轉換為結構化的評論數據;
對結構化的評論數據進行分詞處理,查詢各個分詞在詞典中的類型及不同類型對應的值,進而計算得到該評論數據的情感值;
統計一段時間某個熱點信息的評論數據的情感值和評論人數,根據評論數據的評論人數和情感值分別得到相同時間段內的變化曲線,根據兩條變化曲線在同一時刻內的斜率變化程度判斷熱點信息的評論人數和情感值之間的關聯程度;
該方法中將非結構化的評論數據轉換為結構化的評論數據的方法具體為:
對獲取到的評論數據進行分段處理,按照中英文的句號、分號、問號和感嘆號將評論數據分割為多段語義內容獨立的句子;
對每段句子進行句法分析和語法分析,根據語句之間的依存關系重新提取并組成出新的語句結構;
將新的語句結構進行重組,得到結構化的評論數據;
比較結構化的評論數據與原始的評論數據之間語義上的差距,修復句法分析和語法分析的相關參數;
對所有評論數據循環以上步驟,實現將所有的非結構化的評論數據轉換為結構化的評論數據;
該方法中判斷熱點信息的評論人數和情感值之間的關聯程度的方法具體為:
統計一段時間內兩個熱點信息的評論數據的情感值,并計算這段時間內每天情感值的方差,均值為這段時間內情感值的均值;
統計這段時間內每天評論的人數數量信息;
計算這段時間內不同天之間評論人數上升或下降趨勢的傾斜程度,記為:Li=arctan((當天評論人數-前一天評論人數)/1);
計算這段時間內不同天之間評論情感值方差上升或下降趨勢的傾斜程度,記為:Si=arctan((當天評論情感值方差-前一天評論情感值方差)/1);
計算兩者之間的歐拉距離:
D越大說明評論情感值與評論人數之間的關聯程度越小,D越小說明評論情感值與評論人數之間的關聯程度越大。
2.根據權利要求1所述的移動應用內生大數據統計分析方法,其特征在于,該方法還包括提取評論數據中的新詞匯的方法,使用基于詞向量的算法計算新詞匯的類別和值,并將新詞匯加入到現有的詞典中。
3.根據權利要求2所述的移動應用內生大數據統計分析方法,其特征在于,該方法中將新詞匯加入到現有的詞典中的方法具體為:
獲取評論數據中含有新詞匯的文本,對文本進行分詞處理,形成單一文件;
使用word2vec模型訓練形成的文件,得到一個詞向量模型;
通過詞向量模型計算出新詞匯與現有詞典中詞匯的相似度;
獲得現有詞典中、與新詞匯相似度最高的詞匯的值W,相似度P,則新詞匯的值為W’=W*P。
4.根據權利要求1所述的移動應用內生大數據統計分析方法,其特征在于,計算評論數據情感值的方法具體為:
對結構化的評論數據按照中英文的句號、分號、感嘆號和問號進行分割,得到分割后的多個句子;
對每個句子按照中英文的逗號和空格進行分割,得到分割后的多個短語;
對分割后的短語進行分詞處理,并標注詞性;
分析每個分詞在詞典中所屬的類型,包括情感詞、否定詞、關聯詞、程度副詞和停用詞,并查詢每個分詞在詞典中出現的位置和對應的值;
根據分詞的類型和值,計算每個短語的情感值;
根據每個短語的情感值,計算每個句子的情感值;
根據每個句子的情感值,計算評論數據的情感值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710575488.4/1.html,轉載請聲明來源鉆瓜專利網。





