[發(fā)明專利]基于多模型的搜索引擎數(shù)據(jù)的用戶畫像刻畫方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110530160.7 | 申請日: | 2021-05-14 |
| 公開(公告)號: | CN113297482A | 公開(公告)日: | 2021-08-24 |
| 發(fā)明(設(shè)計)人: | 何涇沙;陳燕博;朱娜斐;魏巍;于聰;洪睿 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/335;G06F16/35;G06N3/04 |
| 代理公司: | 北京匯信合知識產(chǎn)權(quán)代理有限公司 11335 | 代理人: | 張煥響 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 模型 搜索引擎 數(shù)據(jù) 用戶 畫像 刻畫 方法 系統(tǒng) | ||
1.一種基于多模型的搜索引擎數(shù)據(jù)的用戶畫像刻畫方法,其特征在于,包括:
采用標注的訓(xùn)練樣本數(shù)據(jù)對機器學(xué)習(xí)分類器和深度學(xué)習(xí)模型進行訓(xùn)練,并對比不同組合的訓(xùn)練結(jié)果,確定針對不同屬性分類的最佳模型組合;
獲取所要刻畫畫像用戶的搜索引擎數(shù)據(jù),并通過自然語言處理技術(shù)進行特征提取及文本表示;
將特征提取及文本表示后的所述搜索引擎數(shù)據(jù)分別輸入針對不同屬性分類的最佳模型組合;
將針對不同屬性分類的最佳模型組合的預(yù)測結(jié)果作為二階XGBOOST模型的輸入,通過網(wǎng)格搜索方法確定最優(yōu)參數(shù)組合,作為對所要刻畫用戶的畫像。
2.根據(jù)權(quán)利要求1所述的基于多模型的搜索引擎數(shù)據(jù)的用戶畫像刻畫方法,其特征在于,所述采用標注的訓(xùn)練樣本數(shù)據(jù)對機器學(xué)習(xí)分類器和深度學(xué)習(xí)模型進行訓(xùn)練,并對比不同組合的訓(xùn)練結(jié)果,確定針對不同屬性分類的最佳模型組合的具體過程包括:
獲取搜索引擎歷史數(shù)據(jù)集,利用停用詞對所述搜索引擎歷史數(shù)據(jù)集進行數(shù)據(jù)預(yù)處理;
對所述搜索引擎歷史數(shù)據(jù)集添加基于真實屬性分類的標簽標注;
通過自然語言處理技術(shù)對所述搜索引擎歷史數(shù)據(jù)集進行特征提取和文本表示;
將所述搜索引擎歷史數(shù)據(jù)集劃分為訓(xùn)練集和測試集,并根據(jù)標注的標簽基于機器學(xué)習(xí)分類器和深度學(xué)習(xí)模型進行訓(xùn)練;
對比不同模型組合的訓(xùn)練結(jié)果,分別針對不同屬性分類確定相應(yīng)的最佳模型組合。
3.根據(jù)權(quán)利要求1或2所述的基于多模型的搜索引擎數(shù)據(jù)的用戶畫像刻畫方法,其特征在于,所述搜索引擎數(shù)據(jù)的不同屬性分類包括性別屬性、年齡屬性和教育屬性,針對性別屬性分類的最佳模型組合為TF-IDF+SVM分類器,針對年齡屬性的最佳模型組合為DM+BPNN分類器,針對教育屬性的最佳模型組合為DBOW+BPNN分類器。
4.根據(jù)權(quán)利要求2所述的基于多模型的搜索引擎數(shù)據(jù)的用戶畫像刻畫方法,其特征在于,所述自然語言處理技術(shù)包括基于TF-IDF的詞向量模型、基于Doc2Vec的詞向量模型和基于Word2Vec的詞向量模型,通過所述自然語言處理技術(shù)將所述搜索引擎數(shù)據(jù)進行向量化表示。
5.根據(jù)權(quán)利要求4所述的基于多模型的搜索引擎數(shù)據(jù)的用戶畫像刻畫方法,其特征在于,所述通過自然語言處理技術(shù)對所述搜索引擎歷史數(shù)據(jù)集進行特征提取和文本表示具體包括:
將所述搜索引擎歷史數(shù)據(jù)集進行數(shù)據(jù)切分;
通過自然語言處理技術(shù)分別將低于不同屬性分類相關(guān)度的分詞進行過濾;
將過濾后的數(shù)據(jù)進行重新拼接,作為處理后的數(shù)據(jù)集。
6.一種基于多模型的搜索引擎數(shù)據(jù)的用戶畫像刻畫系統(tǒng),其特征在于,包括:
模型訓(xùn)練模塊,用于采用標注的訓(xùn)練樣本數(shù)據(jù)對機器學(xué)習(xí)分類器和深度學(xué)習(xí)模型進行訓(xùn)練,并對比不同組合的訓(xùn)練結(jié)果,確定針對不同屬性分類的最佳模型組合;
數(shù)據(jù)處理模塊,用于獲取所要刻畫畫像用戶的搜索引擎數(shù)據(jù),并通過自然語言處理技術(shù)進行特征提取及文本表示;
一階預(yù)測模塊,用于將特征提取及文本表示后的所述搜索引擎數(shù)據(jù)分別輸入針對不同屬性分類的最佳模型組合;
二階預(yù)測模塊,用于將針對不同屬性分類的最佳模型組合的預(yù)測結(jié)果作為二階XGBOOST模型的輸入,通過網(wǎng)格搜索方法確定最優(yōu)參數(shù)組合,作為對所要刻畫用戶的畫像。
7.根據(jù)權(quán)利要求6所述的基于多模型的搜索引擎數(shù)據(jù)的用戶畫像刻畫系統(tǒng),其特征在于,所述模型訓(xùn)練模塊具體用于:
獲取搜索引擎歷史數(shù)據(jù)集,利用停用詞對所述搜索引擎歷史數(shù)據(jù)集進行數(shù)據(jù)預(yù)處理;
對所述搜索引擎歷史數(shù)據(jù)集添加基于真實屬性分類的標簽標注;
通過自然語言處理技術(shù)對所述搜索引擎歷史數(shù)據(jù)集進行特征提取和文本表示;
將所述搜索引擎歷史數(shù)據(jù)集劃分為訓(xùn)練集和測試集,并根據(jù)標注的標簽基于機器學(xué)習(xí)分類器和深度學(xué)習(xí)模型進行訓(xùn)練;
對比不同模型組合的訓(xùn)練結(jié)果,分別針對不同屬性分類確定相應(yīng)的最佳模型組合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110530160.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





