[發明專利]應用分類方法和應用分類裝置在審
| 申請號: | 201610395414.8 | 申請日: | 2016-06-06 |
| 公開(公告)號: | CN107463935A | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 王躍;路博;王瓊;劉思言;王洪嶺;鄧琳碧 | 申請(專利權)人: | 工業和信息化部電信研究院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/30 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司11514 | 代理人: | 李娜 |
| 地址: | 100191 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 應用 分類 方法 裝置 | ||
1.一種應用分類方法,其特征在于,包括:
獲取待分類數據,其中,所述待分類數據包括待分類應用的應用名稱和應用描述;
對所述待分類數據中的應用名稱和應用描述進行分詞處理,獲得所述待分類應用的多個關鍵詞;
根據所述多個關鍵詞獲得所述待分類應用的分類名稱。
2.根據權利要求1所述的應用分類方法,其特征在于,所述對所述待分類數據中的應用名稱和應用描述進行分詞處理,獲得所述應用的多個關鍵詞的步驟,包括:
對所述待分類數據中的應用名稱和應用描述采用ICTCLAS、IKAnalyzer、盤古分詞、庖丁中文分詞、LibMMSeg、PHPCWS、HTTPCWS、mmseg4j、smallseg、CRF、SCWS、FudanNLP和ICTCLAS4j中的任一種分詞工具進行分詞處理,獲得所述應用的多個關鍵詞。
3.根據權利要求1所述的應用分類方法,其特征在于,所述根據所述多個關鍵詞獲得所述待分類應用的分類名稱的步驟具體包括:
獲取由多條訓練數據組成的訓練樣本,其中,每條所述訓練數據包括一個已確定分類的訓練應用的應用名稱、應用描述和分類名稱;
對每條所述訓練數據中的應用名稱和應用描述進行分詞處理,獲得每個訓練應用的多個關鍵詞,所有所述訓練應用的關鍵詞和分類名稱共同組成樸素貝葉斯分類器的訓練樣本;
采用所述訓練樣本訓練樸素貝葉斯分類器,獲得訓練好的樸素貝葉斯分類器;
采用測試樣本測試所述訓練好的樸素貝葉斯分類器的準確度;
判斷所述準確度是否達到預期值,若未達到,則按照用戶的指令在所述訓練樣本中刪除至少一條訓練數據,重新訓練樸素貝葉斯分類器并測試訓練好的樸素貝葉斯分類器的準確度,重復執行本步驟直至所述準確度達到預期值;
將所述多個關鍵詞輸入訓練好的樸素貝葉斯分類器中進行分類,獲得所述待分類應用的分類名稱。
4.根據權利要求1所述的應用分類方法,其特征在于,所述獲取待分類數據的步驟,包括:
采用網絡爬取方法從不同應用商店中爬取待分類數據。
5.根據權利要求4所述的應用分類方法,其特征在于,所述采用網絡爬取方法從不同應用商店中爬取待分類數據的步驟,包括:
采用nutch爬蟲從不同應用商店中爬取待分類數據。
6.一種應用分類裝置,其特征在于,包括:
待分類數據獲取模塊,用于獲取待分類數據,其中,所述待分類數據包括待分類應用的應用名稱和應用描述;
待分類數據分詞模塊,用于對所述待分類數據中的應用名稱和應用描述進行分詞處理,獲得所述待分類應用的多個關鍵詞;
分類模塊,用于根據所述多個關鍵詞獲得所述待分類應用的分類名稱。
7.根據權利要求6所述的應用分類裝置,其特征在于,所述待分類數據分詞模塊包括:
待分類數據分詞單元,用于對所述待分類數據中的應用名稱和應用描述采用ICTCLAS、IKAnalyzer、盤古分詞、庖丁中文分詞、LibMMSeg、PHPCWS、HTTPCWS、mmseg4j、smallseg、CRF、SCWS、FudanNLP和ICTCLAS4j中的任一種分詞工具進行分詞處理,獲得所述應用的多個關鍵詞。
8.根據權利要求6所述的應用分類裝置,其特征在于,所述分類模塊包括:
訓練樣本獲取單元,用于獲取由多條訓練數據組成的訓練樣本,其中,每條所述訓練數據包括一個已確定分類的訓練應用的應用名稱、應用描述和分類名稱;
訓練數據分詞單元,用于對每條所述訓練數據中的應用名稱和應用描述進行分詞處理,獲得每個訓練應用的多個關鍵詞,所有所述訓練應用的關鍵詞和分類名稱共同組成樸素貝葉斯分類器的訓練樣本;
分類器訓練單元,用于采用所述訓練樣本訓練樸素貝葉斯分類器,獲得訓練好的樸素貝葉斯分類器;
分類器測試單元,用于采用測試樣本測試所述訓練好的樸素貝葉斯分類器的準確度;
重復訓練單元,用于判斷所述準確度是否達到預期值,若未達到,則按照用戶的指令在所述訓練樣本中刪除至少一條訓練數據,重新訓練樸素貝葉斯分類器并測試訓練好的樸素貝葉斯分類器的準確度,重復執行本步驟直至所述準確度達到預期值;
分類單元,用于將所述多個關鍵詞輸入訓練好的樸素貝葉斯分類器中進行分類,獲得所述待分類應用的分類名稱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于工業和信息化部電信研究院,未經工業和信息化部電信研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610395414.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:淋浴托盤
- 下一篇:月餅包裝盒(中秋月餅5)





