[發明專利]基于文本特征的對象分類方法、裝置和計算機設備有效
| 申請號: | 201810077890.4 | 申請日: | 2018-01-26 |
| 公開(公告)號: | CN108182279B | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 王秋文;李百川;陳第 | 申請(專利權)人: | 有米科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 余永文 |
| 地址: | 510000 廣東省廣州市番*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類模型 文本特征向量 文本特征信息 計算機設備 對象分類 分類對象 文本對象 文本特征 網絡技術領域 結果確定 評估類別 預先建立 詞向量 歸類 輸出 轉換 分析 | ||
1.一種基于文本特征的對象分類方法,其特征在于,包括以下步驟:
獲取待分類對象對應的第一文本特征信息;
通過預先建立的詞向量模型將所述第一文本特征信息轉換為對應的第一文本特征向量;
將所述第一文本特征向量輸入經過訓練的分類模型中,根據所述經過訓練的分類模型輸出的結果確定所述待分類對象的評估類別;
所述通過預先建立的詞向量模型將所述第一文本特征信息轉換為對應的第一文本特征向量的步驟之前,還包括:從預設的文本信息庫中確定特征詞的上下文信息,通過onehot工具確定所述特征詞的詞向量;按照Hierarchical Softmax和邏輯回歸,根據所述詞向量確定所述上下文信息出現的條件概率;根據所述條件概率和所述上下文信息,確定所述特征詞的目標函數,根據所述目標函數建立詞向量模型;
所述獲取待分類對象對應的第一文本特征信息的步驟,包括:通過網絡爬蟲工具獲取待分類對象對應的簡介和經營范圍,從中獲取待分類對象對應的第一文本特征信息;所述待分類對象包括社交網絡媒體賬號;
還包括以下步驟:通過jieba工具對第一文本特征信息進行分詞處理,根據TF-IDF提取特征詞,將所提取的特征詞輸入預先建立的詞向量模型,得到第一文本特征向量。
2.根據權利要求1所述的基于文本特征的對象分類方法,其特征在于,所述將所述第一文本特征向量輸入經過訓練的分類模型中的步驟之前,還包括:
獲取多個參考對象對應的第二文本特征向量;分別對所述參考對象的實際類別進行標注;
通過各個參考對象對應的第二文本特征向量以及實際類別訓練預先建立的分類模型,得到經過訓練的分類模型。
3.根據權利要求2所述的基于文本特征的對象分類方法,其特征在于,所述分類模型包括至少一個二分類子模型,每個二分類子模型分別對應一個評估類別;
所述通過各個參考對象對應的第二文本特征向量以及實際類別訓練預先建立的分類模型的步驟,包括:
將某一所述第二文本特征向量分別輸入各個二分類子模型中,分別得到所述第二文本特征向量與對應的評估類別的匹配度;
根據所述匹配度確定參考對象的評估類別;
將參考對象的評估類別與對應的實際類別進行比對,根據比對結果調整所述分類模型。
4.根據權利要求3所述的基于文本特征的對象分類方法,其特征在于,所述根據所述匹配度確定參考對象的評估類別的步驟,包括:
確定所述匹配度中的最高匹配度值,獲取與所述最高匹配度值對應的評估類別,作為對應的待分類對象的評估類別。
5.根據權利要求1所述的基于文本特征的對象分類方法,其特征在于,所述第一文本特征信息中包括至少一個特征詞;
所述通過預先建立的詞向量模型將所述第一文本特征信息轉換為對應的第一文本特征向量的步驟,包括:
通過預先建立的詞向量模型將所述第一文本特征信息中的各個特征詞轉換為對應的特征詞向量,根據各個所述特征詞向量確定所述待分類對象對應的第一文本特征向量。
6.根據權利要求1、2、3、4或5所述的基于文本特征的對象分類方法,其特征在于,所述獲取待分類對象對應的第一文本特征信息的步驟,包括:
通過網絡爬蟲工具獲取待分類對象對應的ID、昵稱、帳號主體和/或推送消息,從中獲取待分類對象對應的第一文本特征信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于有米科技股份有限公司,未經有米科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810077890.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種FRU信息維護方法及相關裝置
- 下一篇:檢索方法、服務端及檢索系統





