[發明專利]數據重新采樣的方法及裝置、儲存介質、電子裝置在審
| 申請號: | 201811482195.2 | 申請日: | 2018-12-05 |
| 公開(公告)號: | CN109783530A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 周循 | 申請(專利權)人: | 北京網眾共創科技有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/9535 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 趙囡囡;董文倩 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 評價指標 重新采樣 電子裝置 概率分布 稀疏性 計算輸入數據 儲存介質 存儲介質 數據稀疏 推薦系統 | ||
1.一種數據重新采樣的方法,其特征在于,包括:
通過計算輸入數據中用戶或者物品的出現頻率來確定輸入數據的概率分布;
根據所述輸入數據的概率分布確定馬太效應的評價指標和稀疏性問題的評價指標;
根據確定的所述馬太效應的評價指標和所述稀疏性問題的評價指標對所述輸入數據進行重新采樣。
2.根據權利要求1所述的方法,其特征在于,根據所述輸入數據的概率分布確定馬太效應的評價指標包括:
根據所述用戶或所述物品在協同過濾中的相似性得分,確定評價所述馬太效應的指標。
3.根據權利要求1所述的方法,其特征在于,根據所述輸入數據的概率分布確定稀疏性問題的評價指標包括:
根據協同過濾中與某個用戶或物品相似的其他用戶或物品參與計算的數量,確定評價所述稀疏性問題的指標。
4.根據權利要求1至3任一項所述的方法,其特征在于,根據確定的所述馬太效應的評價指標和所述稀疏性問題的評價指標對所述輸入數據進行重新采樣包括:
確定所述輸入數據中每個所述用戶或每個所述物品的概率分布公式;
根據推導出來的所述概率分布公式計算所述馬太效應評價指標和所述稀疏性問題的評價指標,與每個所述用戶或每個所述物品概率分布公式之間的數學關系;
根據所述數學關系對所述輸入數據進行重新采樣,以通過改變所述輸入數據的概率分布公式來改善所述馬太效應評價指標和所述稀疏性問題的評價指標。
5.一種數據重新采樣的裝置,其特征在于,包括:
第一確定模塊,用于通過計算輸入數據中用戶或者物品的出現頻率來確定輸入數據的概率分布;
第二確定模塊,用于根據所述輸入數據的概率分布確定馬太效應的評價指標和稀疏性問題的評價指標;
采樣模塊,用于根據確定的所述馬太效應的評價指標和所述稀疏性問題的評價指標對所述輸入數據進行重新采樣。
6.根據權利要求5所述的裝置,其特征在于,所述第二確定模塊包括:
第一確定單元,用于根據所述用戶或所述物品在協同過濾中的相似性得分,確定評價所述馬太效應的指標。
7.根據權利要求5所述的裝置,其特征在于,所述第二確定模塊包括:
第二確定單元,用于根據協同過濾中與某個用戶或物品相似的其他用戶或物品參與計算的數量,確定評價所述稀疏性問題的指標。
8.根據權利要求5所述的裝置,其特征在于,所述采樣模塊包括:
第三確定單元,用于確定所述輸入數據中每個所述用戶或每個所述物品的概率分布公式;
計算單元,用于根據推導出來的所述概率分布公式,計算所述馬太效應評價指標和所述稀疏性問題的評價指標,與每個所述用戶或每個所述物品概率分布公式之間的數學關系;
采樣單元,用于根據所述數學關系對所述輸入數據進行重新采樣,以通過改變所述輸入數據的概率分布公式來改善所述馬太效應評價指標和所述稀疏性問題的評價指標。
9.一種存儲介質,其特征在于,所述存儲介質中存儲有計算機程序,其中,所述計算機程序被設置為運行時執行所述權利要求1至4任一項中所述的方法。
10.一種電子裝置,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行所述權利要求1至4任一項中所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京網眾共創科技有限公司,未經北京網眾共創科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811482195.2/1.html,轉載請聲明來源鉆瓜專利網。





