[發明專利]一種處理數據的方法、裝置、設備和計算機存儲介質在審
| 申請號: | 201710260035.2 | 申請日: | 2017-04-20 |
| 公開(公告)號: | CN107194412A | 公開(公告)日: | 2017-09-22 |
| 發明(設計)人: | 張曉迪;徐云峰;陳承澤;陳煒于 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙)11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 處理 數據 方法 裝置 設備 計算機 存儲 介質 | ||
【技術領域】
本發明涉及地圖服務技術領域,尤其涉及一種處理數據的方法、裝置、設備和計算機存儲介質。
【背景技術】
現有的分類模型,在算法上有SVM(support vector machine,支持向量機)、LR(logistic regression,邏輯回歸)、決策樹等多種選擇,但在實現訓練以及預測時都依靠單個模型將所有的分類標簽和特征涵蓋。因此,現有技術在進行分類模型的訓練時,當分類問題較大、所涉及的分類標簽和特征很多時,則所需要的訓練數據的規模也會呈災難性地增長,從而導致分類模型在有限時間內很難完成訓練,進而影響模型應用的時效性以及迭代開發效率。另外,現有技術在進行分類模型的預測時,當單個模型中的分類標簽和特征規模較大時,會影響模型的預測速度,若在使用分類模型進行實時預測的場景中,模型的預測速度會影響實時系統的響應速度。
【發明內容】
有鑒于此,本發明提供了一種處理數據的方法、裝置、設備和計算機存儲介質,能夠提升分類模型對用戶數據的預測速度以及預測準確度。
本發明為解決技術問題而采用的技術方案是提供了一種處理數據的方法,所述方法包括:獲取含用戶位置相關信息的用戶特征數據;依據所述用戶位置相關信息在地理位置上的劃分,確定用戶特征數據所對應的標簽組;利用所述標簽組對應的分類子模型對所述用戶特征數據進行預測,得到用戶的標簽;其中,每個標簽組分別對應一個分類子模型。
根據本發明一優選實施例,所述分類子模型是采用如下訓練方式預先得到的:獲取標簽以及與標簽相關聯的用戶特征數據;依據各標簽在地理位置上的劃分,對所述標簽進行分組;將每個標簽組所包含標簽以及與標簽相關聯的用戶特征數據作為訓練數據,分別訓練各標簽組對應的分類子模型。
根據本發明一優選實施例,所述在依據各標簽在地理位置上的劃分,對所述標簽進行分組時,將分組邊界上的標簽劃分至臨近的多個標簽組。
根據本發明一優選實施例,所述在將每個標簽組所包含的標簽以及與標簽相關聯的用戶特征數據作為訓練數據時,進一步包括:將置信度低于預設置信度閾值的用戶特征數據從訓練數據中過濾掉。
根據本發明一優選實施例,所述標簽包括感興趣點,或者感興趣區域。
根據本發明一優選實施例,所述用戶位置相關信息包括GPS數據、Wifi信息以及IP地址中的至少一種。
根據本發明一優選實施例,所述依據所述用戶位置相關信息在地理位置上的劃分,確定用戶特征數據所對應的標簽組包括:根據所述用戶特征數據所包含的地理位置信息,對所述用戶特征數據進行空間索引或聚合;根據空間索引或聚合結果,確定所述用戶特征數據對應的標簽組。
根據本發明一優選實施例,所述利用所述標簽組所對應的分類子模型對所述用戶特征數據進行預測,得到用戶的標簽包括:若所述分類子模型只有一個,則將所述用戶特征數據發送至該分類子模型,根據該分類子模型的預測結果,得到用戶的標簽;或者,若所述分類子模型有多個,則將用戶特征數據中對應每個分類子模型的特征數據發送至對應的分類子模型中,根據多個分類子模型的預測合并結果,得到用戶的標簽。
根據本發明一優選實施例,所述根據多個分類子模型的預測合并結果得到用戶的標簽包括:根據各分類子模型所對應用戶特征數據的置信度確定預測結果,得到用戶的標簽;或者,根據各分類子模型所得到預測結果的置信度確定預測結果,得到用戶的標簽。
根據本發明一優選實施例,所述用戶特征數據的置信度依據地理位置、出現頻率或信號強度等中的至少一種確定。
本發明為解決技術問題而采用的技術方案是提供一種處理數據的裝置,所述裝置包括:獲取單元,用于獲取含用戶位置相關信息的用戶特征數據;確定單元,用于依據所述用戶位置相關信息在地理位置上的劃分,確定用戶特征數據所對應的標簽組;預測單元,用于利用所述標簽組對應的分類子模型對所述用戶特征數據進行預測,得到用戶的標簽;其中,每個標簽組分別對應一個分類子模型。
根據本發明一優選實施例,所述裝置還包括訓練單元,用于采用如下訓練方式訓練得到分類子模型:獲取標簽以及與標簽相關聯的用戶特征數據;依據各標簽在地理位置上的劃分,對所述標簽進行分組;將每個標簽組所包含標簽以及與標簽相關聯的用戶特征數據作為訓練數據,分別訓練各標簽組對應的分類子模型。
根據本發明一優選實施例,所述訓練單元在用于依據各標簽在地理位置上的劃分對所述標簽進行分組時,將分組邊界上的標簽劃分至臨近的多個標簽組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710260035.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高效紫外線除臭裝置
- 下一篇:新型高效紫外線除塵裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





