[發明專利]基于多模型的搜索引擎數據的用戶畫像刻畫方法及系統在審
| 申請號: | 202110530160.7 | 申請日: | 2021-05-14 |
| 公開(公告)號: | CN113297482A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 何涇沙;陳燕博;朱娜斐;魏巍;于聰;洪睿 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/335;G06F16/35;G06N3/04 |
| 代理公司: | 北京匯信合知識產權代理有限公司 11335 | 代理人: | 張煥響 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 模型 搜索引擎 數據 用戶 畫像 刻畫 方法 系統 | ||
本發明公開了一種基于多模型的搜索引擎數據的用戶畫像刻畫方法及系統,方法包括:采用標注的訓練樣本數據對機器學習分類器和深度學習模型進行訓練,并對比不同組合的訓練結果,確定針對不同屬性分類的最佳模型組合;獲取所要刻畫畫像用戶的搜索引擎數據,并通過自然語言處理技術進行特征提取及文本表示;將搜索引擎數據分別輸入針對不同屬性分類的最佳模型組合;將針對不同屬性分類的預測結果作為二階XGBOOST模型的輸入,通過網格搜索方法確定最優參數組合,作為對所要刻畫用戶的畫像。通過本發明的技術方案,合理且高效地挖掘搜索引擎數據中的用戶數據,精準地對用戶在不同屬性分類上實現畫像刻畫,提高了用戶畫像刻畫的準確率。
技術領域
本發明涉及用戶畫像刻畫技術領域,尤其涉及一種基于多模型的搜索引擎數據的用戶畫像刻畫方法和一種基于多模型的搜索引擎數據的用戶畫像刻畫系統。
背景技術
目前,隨著信息量呈指數增長,用戶可以獲得的信息越來越多。“信息超載”越來越嚴重。我們面對這巨大的數據,怎么才能找到自己需要的,自己感興趣的數據成為一件急需解決的問題。即我們需要更多的個性化的推薦方法。
但是個性化推薦的基礎便是這個人的屬性興趣等等基本了解,這就是用戶畫像。用戶畫像是基于某些用戶信息(例如人口屬性,點擊行為,消費行為等等)的帶標簽的用戶模型或者用戶信息,從而幫助我們快速了解和理解用戶并幫助我們對用戶進行分類,從而實現用戶的個性化。作為個性化推薦系統的基礎,用戶畫像已經成為大數據的流行應用。
隨著用戶畫像的不斷發展,不管是在工業還是現在正當流行的網絡購物方面,都起著很大的推動作用,隨著用戶畫像的刻畫越來越精準,人物的各種屬性、興趣、喜好等也會越來清晰,對于用戶的相關的推薦也會越來越精準,以此便會提高用戶的體驗感甚至是粘合度,甚至非常有可能會開啟一個新的領域。
但是,現有的文本屬性特征提取技術效率較低,單一模型的容錯率較高,搜索引擎數據中的數據種類繁多、數據量大、無用數據較多,干擾性較強,使得刻畫得到用戶畫像準確率較低。
發明內容
針對上述問題,本發明提供了一種基于多模型的搜索引擎數據的用戶畫像刻畫方法及系統,通過多個模型分別對搜索引擎數據進行不同屬性分類的特征提取,并將不同屬性分類下的結果相融合作為二階XGBOOST模型的輸入,最終得到所要刻畫用戶的用戶畫像,從不同屬性分類上將無用數據進行篩除,解決了數據的高消耗性和低效性問題,合理且高效地挖掘搜索引擎數據中的用戶數據,精準地對用戶在不同屬性分類上實現畫像刻畫,提高了用戶畫像刻畫的準確率。
為實現上述目的,本發明提供了一種基于多模型的搜索引擎數據的用戶畫像刻畫方法,包括:采用標注的訓練樣本數據對機器學習分類器和深度學習模型進行訓練,并對比不同組合的訓練結果,確定針對不同屬性分類的最佳模型組合;獲取所要刻畫畫像用戶的搜索引擎數據,并通過自然語言處理技術進行特征提取及文本表示;將特征提取及文本表示后的所述搜索引擎數據分別輸入針對不同屬性分類的最佳模型組合;將針對不同屬性分類的最佳模型組合的預測結果作為二階XGBOOST模型的輸入,通過網格搜索方法確定最優參數組合,作為對所要刻畫用戶的畫像。
在上述技術方案中,優選地,所述采用標注的訓練樣本數據對機器學習分類器和深度學習模型進行訓練,并對比不同組合的訓練結果,確定針對不同屬性分類的最佳模型組合的具體過程包括:獲取搜索引擎歷史數據集,利用停用詞對所述搜索引擎歷史數據集進行數據預處理;對所述搜索引擎歷史數據集添加基于真實屬性分類的標簽標注;通過自然語言處理技術對所述搜索引擎歷史數據集進行特征提取和文本表示;將所述搜索引擎歷史數據集劃分為訓練集和測試集,并根據標注的標簽基于機器學習分類器和深度學習模型進行訓練;對比不同模型組合的訓練結果,分別針對不同屬性分類確定相應的最佳模型組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110530160.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高速短波通信探測器
- 下一篇:一種用于光通信設備組裝的電動螺絲刀
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





