[發明專利]一種APP歸類整理方法及系統有效
| 申請號: | 201910089636.0 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN109857402B | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 陳偉 | 申請(專利權)人: | 重慶藍岸科技股份有限公司 |
| 主分類號: | G06F8/38 | 分類號: | G06F8/38;G06F40/289;G06F40/216;G06F16/35;G06F16/16;H04M1/725 |
| 代理公司: | 重慶西南華渝專利代理有限公司 50270 | 代理人: | 涂強 |
| 地址: | 401120 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 app 歸類 整理 方法 系統 | ||
1.一種APP歸類整理方法,其特征在于,所述APP歸類整理方法包括以下步驟:
S100:基于Android系統源代碼進行修改,即修改桌面菜單項代碼和添加自定義桌面APP合并時Folder命名的部分代碼;
S200:建立語料庫,對語料庫的應用名進行分詞,并同時計算分詞對象在此類別的重要度;語料庫包括詞語數據庫,將計算的重要度數據發送至詞語數據庫中進行保存;
S300:在Android系統的桌面啟動器中添加自動整理功能,該自動整理功能對手機中APP進行遍歷,并對APP所對應的名稱進行分詞,將分詞后的數據通過步驟S200所建立的詞語數據庫進行APP的分類計算,最后根據APP所屬類別,將其中同屬類別的APP歸類于同一個Folder文件夾中并以類別名稱為文件夾命名;
建立詞語數據庫的過程包括以下步驟:
S201:從手機APP市場中爬取APP信息,獲取其應用名稱和所屬類別,并根據其應用名稱建立應用數據信息庫;
S202:在應用數據信息庫中提取詞干,即使用開源python中文分詞開發工具進行中文分詞;
S203:統計每個詞在各個分類中的出現頻率及其在分類中的逆文檔頻率;
S204:根據各個詞出現在各個所屬類別的頻率及逆文檔頻率,通過TF-IDF綜合結果進行重要度排序;
S205:將上一步驟排序得出的結果保存至詞語數據庫中;
所述步驟S202中的應用數據信息庫包括數據表,數據表包括:與ID號對應的INTEGER數據類型;與應用名對應的varchar(20)數據類型;與應用類別對應的varchar(20)數據類型;
所述步驟S204包括根據步驟S201所建立的應用數據信息庫中的詞,計算該詞在各個所屬類別的頻率,即對詞頻的計算,計算公式為:
再根據該詞在所述步驟S201中建立的應用信息數據庫的所屬類別計算逆文檔概率,計算公式為:
最后根據TF-IDF統計方法計算該詞在該應用類別中的重要度,計算公式為:TF-IDF=詞頻(TF)*逆文檔概率(IDF)
其中,TF-IDF為重要度。
2.根據權利要求1所述的APP歸類整理方法,其特征在于,所述步驟S205包括在所述數據表中添加數據類型,即與重要度對應的DOUBLE數據類型。
3.根據權利要求1所述的APP歸類整理方法,其特征在于,所述步驟S300對APP進行自動歸類過程包括以下步驟:
S301:遍歷應用,獲取應用名;
S302:對應用名進行分詞,并計算出與之匹配的類別;
S303:根據類別統計應用數,若屬同一類別的應用數≥2,則將其應用合并入一個Folder文件夾里;
S304:根據類別名稱對Folder文件夾進行命名;
S305:按照拼音順序對Folder文件夾進行排序,并根據排序順序在手機桌面上進行放置。
4.根據權利要求3所述的APP歸類整理方法,其特征在于,所述步驟S302包括計算應用A在應用分類B中的系數,計算公式為:
其中,WBi為字/詞i在語料庫中應用名分類B中的重要度,即WBi指代字/詞i在分類B的TF-IDF,Ni為該字/詞在應用名中的個數。
5.一種APP歸類整理系統,其特征在于,包括應用信息爬取模塊(1)、應用信息數據庫(2)、詞干提取模塊(3)、詞語數據庫(4)、Android應用分類模塊(5)以及Android桌面應用整理模塊(6):信息爬取模塊(1)與應用信息數據庫(2)相連接;應用信息數據庫(2)與詞干提取模塊(3)相連接;詞語數據庫(4)與詞干提取模塊(3)相連接;Android應用分類模塊(5)與詞語數據庫(4)相連接;Android桌面應用整理模塊(6)與Android應用分類模塊(5)相連接;
建立詞語數據庫(4)的過程包括以下步驟:
S201:從手機APP市場中爬取APP信息,獲取其應用名稱和所屬類別,并根據其應用名稱建立應用數據信息庫;
S202:在應用數據信息庫中提取詞干,即使用開源python中文分詞開發工具進行中文分詞;
S203:統計每個詞在各個分類中的出現頻率及其在分類中的逆文檔頻率;
S204:根據各個詞出現在各個所屬類別的頻率及逆文檔頻率,通過TF-IDF綜合結果進行重要度排序;
S205:將上一步驟排序得出的結果保存至詞語數據庫中;
所述步驟S202中的應用數據信息庫包括數據表,數據表包括:與ID號對應的INTEGER數據類型;與應用名對應的varchar(20)數據類型;與應用類別對應的varchar(20)數據類型;
所述步驟S204包括根據步驟S201所建立的應用數據信息庫中的詞,計算該詞在各個所屬類別的頻率,即對詞頻的計算,計算公式為:
再根據該詞在所述步驟S201中建立的應用信息數據庫的所屬類別計算逆文檔概率,計算公式為:
最后根據TF-IDF統計方法計算該詞在該應用類別中的重要度,計算公式為:TF-IDF=詞頻(TF)*逆文檔概率(IDF)
其中,TF-IDF為重要度;
信息爬取模塊(1)用于執行所述步驟S201;
應用信息數據庫(2)與詞干提取模塊(3)相互配合執行所述步驟S202、所述步驟S203以及所述步驟S204;
詞語數據庫(4)用于執行所述步驟S205;
Android應用分類模塊(5)用于執行步驟S100,步驟S100為:基于Android系統源代碼進行修改,即修改桌面菜單項代碼和添加自定義桌面APP合并時Folder命名的部分代碼;
Android桌面應用整理模塊(6)與Android應用分類模塊(5)相互配合執行步驟S300,步驟S300為:在Android系統的桌面啟動器中添加自動整理功能,該自動整理功能對手機中APP進行遍歷,并對APP所對應的名稱進行分詞,將分詞后的數據通過步驟S200所建立的詞語數據庫進行APP的分類計算,最后根據APP所屬類別,將其中同屬類別的APP歸類于同一個Folder文件夾中并以類別名稱為文件夾命名,步驟S200為:建立語料庫,對語料庫的應用名進行分詞,并同時計算分詞對象在此類別的重要度;語料庫包括詞語數據庫,將計算的重要度數據發送至詞語數據庫中進行保存。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶藍岸科技股份有限公司,未經重慶藍岸科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910089636.0/1.html,轉載請聲明來源鉆瓜專利網。





