[發明專利]挖掘用戶職業的方法、裝置、計算機可讀存儲介質和終端設備有效
| 申請號: | 201810068937.0 | 申請日: | 2018-01-24 |
| 公開(公告)號: | CN110110213B | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 張宗一;梁晨曦;谷皓;凌國惠;張功源 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06K9/62 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 徐文靜;陳世華 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 挖掘 用戶 職業 方法 裝置 計算機 可讀 存儲 介質 終端設備 | ||
本發明屬于機器學習領域,提供了一種挖掘用戶職業的方法、裝置、計算機可讀存儲介質和終端設備,以精確預測用戶的職業類型。所述方法包括:提取樣本用戶的特征值并將樣本用戶的特征值轉換為樣本用戶的特征詞;根據樣本用戶的特征詞和樣本用戶的職業標簽,獲取所有職業標簽嵌入向量和待挖掘用戶的嵌入向量;將待挖掘用戶的嵌入向量與每一個職業標簽嵌入向量相匹配,取與待挖掘用戶的嵌入向量最匹配的職業標簽嵌入向量對應的職業標簽作為待挖掘用戶的職業標簽。本發明提供的技術方案一方面使得待挖掘用戶與職業標簽能夠精確匹配;另一方面,在將待挖掘用戶的嵌入向量與職業標簽嵌入向量相匹配時,無需大量計算資源,計算速度極快。
技術領域
本發明屬于機器學習領域,尤其涉及一種挖掘用戶職業的方法、裝置、計算機可讀存儲介質和終端設備。
背景技術
伴隨著智能移動技術的發展,智能移動終端上安裝的應用越來越多。用戶通過應用的客戶端接入互聯網,與其他用戶進行廣泛的交互。有業界人士統計過,用戶通過應用進行交互,在一小時中總共產生的數據是以T(1T=1024G)字節度量的。因此,在數據泛濫的今天,如何通過高效的手段精準挖掘一些應用的用戶的信息,例如,社交類應用的用戶的職業信息等,是許多業界人士研究和感興趣的課題。
現有技術在挖掘用戶的信息時,往往是基于用戶個人的文本類數據進行,但這種方式存在極大的缺陷,其主要原因在于這種處理方式過于依賴自然語言處理技術。然而,理解自然語言,尤其是互聯網上常見的短文本,需要大量的背景知識和上下文信息。在缺乏這些信息的情形下,即使是人工也無法準確理解文本的含義,目前的很多計算機算法對文本含義的識別效率和準確率也同樣不理想。例如,社交類應用的用戶過社交類應用發出一條包含“福田”的短語,由于“福田”既可以指深圳的福田區,又可以指“福田汽車”,在缺乏上下文信息的情形下,現有的挖掘用戶的信息方法無法判斷這個發出包含“福田”的短語的用戶只是居住在深圳福田區的一位普通市民(例如,退休在家的大媽或大爺),還是福田汽車4S店的一位銷售人員。
綜上,現有的挖掘用戶的信息,例如,職業信息的方法召回率和準確率都偏低,無法滿足大數據時代人們對信息準確獲取的要求。
發明內容
本發明的目的在于提供一種挖掘用戶職業的方法、裝置、計算機可讀存儲介質和終端設備,以精確預測用戶的職業類型。
本發明第一方面提供一種挖掘用戶職業的方法,所述方法包括:
提取樣本用戶的特征值,將所述樣本用戶的特征值轉換為樣本用戶的特征詞;
根據所述樣本用戶的特征詞和所述樣本用戶的職業標簽,獲取所有職業標簽嵌入向量和待挖掘用戶的嵌入向量,所述職業標簽嵌入向量和所述待挖掘用戶的嵌入向量隸屬同一向量空間;
將所述待挖掘用戶的嵌入向量與所述所有職業標簽嵌入向量中的每一個職業標簽嵌入向量相匹配,取與所述待挖掘用戶的嵌入向量最匹配的職業標簽嵌入向量對應的職業標簽作為所述待挖掘用戶的職業標簽。
本發明第二方面提供一種挖掘用戶職業的裝置,所述裝置包括:
特征轉換模塊,用于提取樣本用戶的特征值,將樣本用戶的特征值轉換為樣本用戶的特征詞;
嵌入向量獲取模塊,用于根據所述樣本用戶的特征詞和所述樣本用戶的職業標簽,獲取所有職業標簽嵌入向量和待挖掘用戶的嵌入向量,所述職業標簽嵌入向量和所述待挖掘用戶的嵌入向量隸屬同一向量空間;
匹配模塊,用于將所述待挖掘用戶的嵌入向量與所述所有職業標簽嵌入向量中的每一個職業標簽嵌入向量相匹配,取與所述待挖掘用戶的嵌入向量最匹配的職業標簽嵌入向量對應的職業標簽作為所述待挖掘用戶的職業標簽。
本發明第三方面提供一種終端設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如下方法的步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810068937.0/2.html,轉載請聲明來源鉆瓜專利網。





