[發明專利]文本信息的行業分類方法、系統、計算機設備和存儲介質有效
| 申請號: | 201810290042.1 | 申請日: | 2018-04-03 |
| 公開(公告)號: | CN108563722B | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 翁永金;李百川;馮玨曦;李錦勝;陳第;蔡銳濤 | 申請(專利權)人: | 有米科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/289 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 余永文 |
| 地址: | 511400 廣東省廣州市番*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息 行業 分類 方法 系統 計算機 設備 存儲 介質 | ||
1.一種文本信息的行業分類方法,其特征在于,所述方法包括:
獲取待分類文本信息的特征詞,根據所述特征詞以及預先建立的行業特征詞庫,得到所述待分類文本信息對應的初始行業標簽,所述行業特征詞庫中包括各行業標簽對應的特征詞;
根據所述特征詞以及預先建立的詞向量模型,得到所述待分類文本信息的特征向量;
根據所述特征向量以及預先設置的分類模型,分別得到所述待分類文本信息對應于所述初始行業標簽中各行業標簽的行業標簽概率;
根據所述行業標簽概率,從初始行業標簽中確定出所述待分類文本信息對應的行業分類;
所述根據所述特征詞以及預先建立的行業特征詞庫,得到文本信息對應的初始行業標簽的步驟,包括:
根據預先建立的行業特征詞匯庫,對所述特征詞與所述行業特征詞匯庫進行全匹配和/或正則匹配,得到所述行業特征詞匯庫中各行業標簽與所述待分類文本信息的特征詞的匹配頻次;
根據各所述匹配頻次,確定所述待分類文本信息的初始行業標簽。
2.根據權利要求1所述的文本信息的行業分類方法,其特征在于,還包括:
獲取已知行業標簽的已知文本信息;
對同一行業標簽對應的已知文本信息進行分詞處理,得到同一行業標簽對應的候選特征詞匯集合;
將所述候選特征詞匯集合中每個詞匯作為TextRank模型中的一個節點,得到每個詞匯的TextRank值;
根據詞匯的TextRank值,建立行業特征詞庫。
3.根據權利要求2所述的文本信息的行業分類方法,其特征在于,在從初始行業標簽中確定出所述待分類文本信息對應的行業分類之后,還包括:
驗證所述待分類文本信息是否與其行業分類對應;
若否,則根據所述待分類文本信息及其對應的實際行業分類,更新所述行業特征詞庫。
4.根據權利要求2或3所述的文本信息的行業分類方法,其特征在于,所述分類模型包括:根據已知行業分類的已知文本信息訓練得到的邏輯回歸模型;
所述根據所述特征向量以及預先設置的分類模型,分別得到所述待分類文本信息對應于所述初始行業標簽中每個行業標簽的行業標簽概率的步驟,包括:
將所述特征向量輸入所述邏輯回歸模型中,分別得到所述待分類文本信息對應于所述初始行業標簽中每個行業標簽的行業標簽概率。
5.根據權利要求2或3所述的文本信息的行業分類方法,其特征在于,還包括:
若所述初始行業標簽中行業標簽唯一,則確定唯一的所述行業標簽為所述待分類文本信息對應的行業分類。
6.根據權利要求5所述的文本信息的行業分類方法,其特征在于,從初始行業標簽中確定出所述待分類文本信息對應的行業分類之后,還包括:
將所述待分類文本信息及其對應的行業分類存入預先設置的文本庫,其中,所述文本庫用于存儲所述已知文本信息。
7.根據權利要求1至3任一項所述的文本信息的行業分類方法,其特征在于,所述根據所述行業標簽概率,從初始行業標簽中確定出所述待分類文本信息對應的行業分類的步驟,包括:
確定所述行業標簽概率最大的行業標簽,由此得到所述待分類文本信息的行業分類。
8.根據權利要求1至3任一項所述的文本信息的行業分類方法,其特征在于,所述根據各所述匹配頻次,確定所述待分類文本信息的初始行業標簽的步驟,包括:
取匹配頻次最高的多個行業標簽作為所述待分類文本信息的初始行業標簽。
9.根據權利要求8所述的文本信息的行業分類方法,其特征在于,根據所述特征詞以及預先建立的詞向量模型,得到所述待分類文本信息的特征向量的步驟,包括:
根據預設語料庫訓練預設維度的詞向量模型,將所述待分類文本信息的特征詞依次輸入所述詞向量模型,得到每個所述特征詞對應的詞向量;
根據每個所述特征詞對應的詞向量,得到所述待分類文本信息的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于有米科技股份有限公司,未經有米科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810290042.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于快速加載網頁的架構
- 下一篇:一種中文癥狀體征構成識別方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





