[發明專利]一種多元組層次劃分的分類方法及裝置有效
| 申請號: | 201710585101.3 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107402994B | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 晉彤;李永康 | 申請(專利權)人: | 云潤大數據服務有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510520 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多元 層次 劃分 分類 方法 裝置 | ||
本發明公開了一種多元組層次劃分的分類方法,包括以下步驟:根據文檔主題生成模型進行語料訓練,生成多元組特征庫;其中,所述多元組特征庫包含至少一個元組的元組特征;所述元組特征擁有獨屬于自身的權重比例;根據所述多元組特征庫中的各個元組特征生成對應所述元組特征的分類器;接收輸入的待分類數據,通過所述待分類數據的特征選擇對應的所述分類器,根據實體權重判別及概率權重判別對所述待分類數據進行判別分類,輸出所述待分類數據所屬分類。本發明還公開了一種多元組層次劃分的分類裝置,提高文章歸類精度,縮短響應時間,合理利用硬件資源。
技術領域
本發明涉及文本挖掘及自動分類領域,尤其涉及一種多元組層次劃分的分類方法及裝置。
背景技術
現有的文章分類模型是基于詞頻和概率把相同主題的文章按預先訓練的分類器劃分到不同的類別,但是申請人在對文本挖掘及自動分類領域的研究過程中發現,現有的文章分類模型是根據該模型的全局特征利用泛概率模型獲取文章權重,不分領域,產生的誤差較大,且不支持分布計算,運算量巨大,從而導致文章歸類精度不高,響應時間長而且浪費硬件資源。
發明內容
針對上述問題,本發明的目的在于提供一種多元組層次劃分的分類方法及裝置,提高文章歸類精度,縮短響應時間,合理利用硬件資源。
本發明提供了一種多元組層次劃分的分類方法,包括以下步驟:
根據文檔主題生成模型進行語料訓練,生成多元組特征庫;其中,所述多元組特征庫包含至少一個元組的元組特征;所述元組特征擁有獨屬于自身的權重比例;
根據所述多元組特征庫中的各個元組特征生成對應所述元組特征的分類器;
接收輸入的待分類數據,通過所述待分類數據的特征選擇對應的所述分類器,根據實體權重判別及概率權重判別對所述待分類數據進行判別分類,輸出所述待分類數據所屬分類。
優選地,
在所述根據所述多元組特征庫中的各個元組特征生成對應所述元組特征的分類器之后,還包括:
根據元組之間的聯系建立所述元組之間的跨域的非線性關聯規則。
優選地,
在所述接收輸入的待分類數據,通過所述待分類數據的特征選擇對應的所述分類器,根據實體權重判別及概率權重判別對所述待分類數據進行判別分類,輸出所述待分類數據所屬分類之后,還包括:
根據所述元組特征及所述待分類數據進行自適應學習以自動調整分類器。
優選地,
在所述接收輸入的待分類數據,通過所述待分類數據的特征選擇對應的所述分類器,根據實體權重判別及概率權重判別對所述待分類數據進行判別分類,輸出所述待分類數據所屬分類之后,還包括:
根據不同粒度對已分類的所述待分類數據進行多元結果集合歸檔及分類索引;
其中,所述粒度指所述待分類數據所屬分類的范圍。
優選地,
所述根據不同粒度對已分類的所述待分類數據進行多元結果集合歸檔及分類索引具體為:
根據劃分的粒度,將屬于同一粒度且劃分為一類的分類數據進行分布式計算的集合存儲歸檔;
根據粒度的不同,生成特征指紋進行分類索引。
優選地,
所述多元組特征庫中的各個元組特征根據實體權重及概率權重模型計算進行權重比例調整。
本發明還提供了一種多元組層次劃分的分類裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云潤大數據服務有限公司,未經云潤大數據服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710585101.3/2.html,轉載請聲明來源鉆瓜專利網。





