[發明專利]基于文本特征的對象分類方法、裝置和計算機設備有效
| 申請號: | 201810077890.4 | 申請日: | 2018-01-26 |
| 公開(公告)號: | CN108182279B | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 王秋文;李百川;陳第 | 申請(專利權)人: | 有米科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 余永文 |
| 地址: | 510000 廣東省廣州市番*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類模型 文本特征向量 文本特征信息 計算機設備 對象分類 分類對象 文本對象 文本特征 網絡技術領域 結果確定 評估類別 預先建立 詞向量 歸類 輸出 轉換 分析 | ||
本發明涉及基于文本特征的對象分類方法、裝置和計算機設備,屬于網絡技術領域。所述方法包括:獲取待分類對象對應的第一文本特征信息;通過預先建立的詞向量模型將所述第一文本特征信息轉換為對應的第一文本特征向量;將所述第一文本特征向量輸入經過訓練的分類模型中,根據所述經過訓練的分類模型輸出的結果確定所述待分類對象的評估類別。上述技術方案,解決了對文本對象分析時分類模型不夠準確的問題,能對文本對象進行準確歸類。
技術領域
本發明涉及網絡技術領域,特別是涉及基于文本特征的對象分類方法、裝置、計算機設備和存儲介質。
背景技術
分類是一種重要的數據挖掘技術。分類的目的是根據數據集的特點把未知類別的樣本映射到給定類別中的某一個?,F有的對文本進行分類的方法主要有人工分類法和模型文本法,人工分類法利用人的自有知識對信息進行分類,而模型分類法通過相似度模型、概率模型、線性模型、非線性模型以及組合模型等模型對信息分類。在實現本發明過程中,發明人發現現有技術中至少存在如下問題:人工文本分類盡管利用人工分類,基于已有知識、常識分類,能夠保證準確性,但對于微信公眾號等類別眾多的文本,分類效率低下,后期分類容易產生偏差以及誤判;而對于模型分類法,模型各有利弊,針對不同領域有不同效果。因此,有必要找到一種合適的能對文本對象進行準確歸類的方法。
發明內容
基于此,本發明提供了基于文本特征的對象分類方法、裝置、計算機設備和存儲介質,能對文本對象進行準確歸類。
本發明實施例的內容如下:
一種基于文本特征的對象分類方法,包括以下步驟:獲取待分類對象對應的第一文本特征信息;通過預先建立的詞向量模型將所述第一文本特征信息轉換為對應的第一文本特征向量;將所述第一文本特征向量輸入經過訓練的分類模型中,根據所述經過訓練的分類模型輸出的結果確定所述待分類對象的評估類別。
在其中一個實施例中,所述將所述第一文本特征向量輸入經過訓練的分類模型中的步驟之前,還包括:獲取多個參考對象對應的第二文本特征向量;分別對所述參考對象的實際類別進行標注;通過各個參考對象對應的第二文本特征向量以及實際類別訓練預先建立的分類模型,得到經過訓練的分類模型。
在其中一個實施例中,所述分類模型包括至少一個二分類子模型,每個二分類子模型分別對應一個評估類別;所述通過各個參考對象對應的第二文本特征向量以及實際類別訓練預先建立的分類模型的步驟,包括:將某一所述第二文本特征向量分別輸入各個二分類子模型中,分別得到所述第二文本特征向量與對應的評估類別的匹配度;根據所述匹配度確定參考對象的評估類別;將參考對象的評估類別與對應的實際類別進行比對,根據比對結果調整所述分類模型。
在其中一個實施例中,所述根據所述匹配度確定參考對象的評估類別的步驟,包括:確定所述匹配度中的最高匹配度值,獲取與所述最高匹配度值對應的評估類別,作為對應的待分類對象的評估類別。
在其中一個實施例中,所述通過預先建立的詞向量模型將所述第一文本特征信息轉換為對應的第一文本特征向量的步驟之前,還包括:從預設的文本信息庫中確定特征詞的上下文信息,通過one hot工具確定所述特征詞的詞向量;根據所述詞向量確定所述上下文信息出現的條件概率;根據所述條件概率和所述上下文信息建立詞向量模型。
在其中一個實施例中,所述第一文本特征信息中包括至少一個特征詞;所述通過預先建立的詞向量模型將所述第一文本特征信息轉換為對應的第一文本特征向量的步驟,包括:通過預先建立的詞向量模型將所述第一文本特征信息中的各個特征詞轉換為對應的特征詞向量,根據各個所述特征詞向量確定所述待分類對象對應的第一文本特征向量。
在其中一個實施例中,所述獲取待分類對象對應的第一文本特征信息的步驟,包括:通過網絡爬蟲工具獲取待分類對象對應的ID、昵稱、簡介、經營范圍、帳號主體和/或推送消息,從中獲取待分類對象對應的第一文本特征信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于有米科技股份有限公司,未經有米科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810077890.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種FRU信息維護方法及相關裝置
- 下一篇:檢索方法、服務端及檢索系統





