[發明專利]一種基于自然語言處理的移動手機用戶畫像建立方法有效
| 申請號: | 202110644378.5 | 申請日: | 2021-06-09 |
| 公開(公告)號: | CN113377912B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 李嘉晨;陸藝;徐曉冬;周建成 | 申請(專利權)人: | 南京光普信息技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/9535;G06V10/82;G06V20/40 |
| 代理公司: | 鹽城市大豐區豐晟知識產權代理事務所(特殊普通合伙) 32454 | 代理人: | 葛瀟敏 |
| 地址: | 210000 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 移動 手機用戶 畫像 建立 方法 | ||
1.一種基于自然語言處理的移動手機用戶畫像建立方法,其特征在于包括如下步驟:
步驟1,設定時間窗口,在數據庫中提取各個用戶在該時間窗口內使用移動應用的序列,作為移動應用使用序列;然后按照打開時間先后進行排序,并提取相對應的用戶使用各個移動應用的時長,從而得到對應移動應用使用序列的使用應用時長序列;
步驟2,匯總所有用戶的移動應用使用序列,將每個移動應用看作是一個文本詞匯,利用word2vec模型進行訓練,從而得到所有移動應用的特征向量,這些特征向量共同組成移動應用向量化模型;
步驟3,對于各移動應用使用序列,根據序列中前后移動應用的不同,動態調整移動應用的量化特征向量;
步驟4,運用自然斷點算法,對每個移動應用序列進行切分,每個移動應用序列被拆分為一系列場景小片段;
步驟5,利用TFIDF算法計算顯著性權重矩陣P1;
步驟6,利用重復法計算移動應用序列的時長權重矩陣P2;
步驟7,基于步驟3的量化特征向量Tnew,k、步驟5的顯著性權重矩陣P1、步驟6的時長權重矩陣P2,利用下式計算移動應用使用序列的特征向量:
Tarray=P1P2[Tnew,k]n
步驟8,將步驟4的每個場景看作文章集中的一個自然段,計算每個小片段的特征向量,用som算法對這些小片段進行預訓練,得到應該劃分的聚類數目ck;
步驟9,使用Kmeans++算法,代入ck,對所有移動應用場景小片段進行聚類;然后使用HashingTF算法,估算每個類別各個移動應用的頻次,計算在不同場景類別中各個移動應用的tgi值,給每個場景類別命名,以此作為衡量使用移動應用行為的標尺;
步驟10,再次使用som算法,對移動應用特征向量加權平均后代表序列的特征向量進行與訓練,得到應該劃分的聚類數目xk;
步驟11,使用Kmeans++算法,代入步驟10得到的聚類數目xk,進行聚類,至此,每個長序列都得到一個類別標簽;
步驟12,結合步驟9輸出的場景標尺,統計計算不同類別標簽下移動應用使用序列的場景構成的tgi值,以此構建移動應用使用序列的場景偏好矩陣。
2.如權利要求1所述的方法,其特征在于:所述步驟3中,將移動應用使用序列中的各移動應用按照出現頻次由高到低進行排序,并根據下式計算第k個移動應用的量化特征向量:
其中,k為排序后的移動應用的位置序號,k=1,2,3,…;Tk為第k個移動應用的特征向量;Ck表示第k個移動應用的權重;Tnew,k表示第k個移動應用的量化特征向量。
3.如權利要求1所述的方法,其特征在于:所述步驟3中,更新頻次由高到低設定位次的移動應用量化特征向量,并優先對頻次排位靠前的移動應用量化特征向量進行微調;在對排序靠后的移動應用進行適應性調整時,如果前后出現了頻次排位靠前的移動應用,則使用已經調整結束的相對應量化特征向量,而非原始特征向量。
4.如權利要求1所述的方法,其特征在于:所述步驟4的具體內容是:首先對于對應時間序列上長時間的靜默,直接進行第一次切割;然后,代入步驟3中的量化特征向量,計算前后移動應用對應的量化特征向量兩兩之間的歐式距離,得到距離序列,運用自然斷點法找到距離突變點,進行第二次切割,將突變位置斷開;至此,每個移動應用序列被拆分成一系列小片段。
5.如權利要求1所述的方法,其特征在于:所述步驟5中,具體先應用時長矩陣,將時長分若干組別,組別由小到大代表著時長的增長;將移動應用時序序列按時長組別進行重復處理,以此作為新的移動應用使用序列應用于TFIDF算法,得到顯著性復合矩陣。
6.如權利要求1所述的方法,其特征在于:所述步驟10、11中,按月對用戶的加權移動應用使用序列進行Kmeans++聚類,每個用戶得到一個按月的行為類別標簽序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京光普信息技術有限公司,未經南京光普信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110644378.5/1.html,轉載請聲明來源鉆瓜專利網。





