[發明專利]一種文本分類模型生成、文本分類方法及裝置有效
| 申請號: | 201810305894.3 | 申請日: | 2018-04-08 |
| 公開(公告)號: | CN108595542B | 公開(公告)日: | 2021-11-02 |
| 發明(設計)人: | 余咸國 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/215;G06F40/289;G06F40/216 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 模型 生成 方法 裝置 | ||
本申請實施例提供一種文本分類模型生成、文本分類方法及裝置,通過確定至少一個訓練文本;對至少一個訓練文本進行數據清洗,得到分別與每個訓練文本對應的第一訓練文本;針對每個第一訓練文本,從第一訓練文本的文本內容中依次選取預設個數的滿足預先設置的分詞選取條件的分詞,生成第二訓練文本;分別確定每個第二訓練文本的文本向量;將文本向量和文本向量對應的訓練文本所屬的文本類別,作為預先設置的文本分類模型生成算法的輸入信息,以生成文本分類模型的方式,避免了現有技術基于詞頻構建的文本分類模型所存在的文本分類準確性低的問題。
技術領域
本發明涉及計算機領域,特別是涉及一種文本分類模型生成、文本分類方法及裝置。
背景技術
隨著移動互聯網時代的到來,內容的生產和傳播都發生了深刻的變化,為了滿足信息爆炸背景下用戶的多樣化需求,迫切需要對文本信息進行有效的組織,文本分類是數據挖掘和信息檢索領域研究的熱點和核心技術。
現有技術主要是基于文本中的詞頻特征構建文本分類模型,進而基于構建的文本分類模型對待分類文本進行文本分類。但是,因文本中的詞頻并不能有效體現文本的類別,所以現有技術通常存在文本分類不準確的問題。
有鑒于此,提供一種文本分類模型生成、文本分類方法及裝置,以提高文本分類的準確性,是亟待解決的問題。
發明內容
有鑒于此,本發明的目的在于提供一種文本分類模型生成、文本分類方法及裝置,以提高文本分類的準確性,具體實施方案如下:
一種文本分類模型生成方法,包括:
確定至少一個訓練文本;
對所述至少一個訓練文本進行數據清洗,得到分別與每個訓練文本對應的第一訓練文本;
針對每個所述第一訓練文本,從所述第一訓練文本的文本內容中依次選取預設個數的滿足預先設置的分詞選取條件的分詞,生成第二訓練文本;
分別確定每個所述第二訓練文本的文本向量;
將所述文本向量和所述文本向量對應的訓練文本所屬的文本類別,作為文本分類模型生成算法的輸入信息,以生成文本分類模型。
可選的,所述對所述至少一個訓練文本進行數據清洗,得到分別與每個訓練文本對應的第一訓練文本,包括:
將滿足預設的刪除條件的字符刪除后的文本內容,確定為與所述訓練文本對應的第一訓練文本。
可選的,所述針對每個所述第一訓練文本,從所述第一訓練文本的文本內容中依次選取預設個數的滿足預先設置的分詞選取條件的分詞,生成第二訓練文本,包括:
對所述第一訓練文本的文本內容進行分詞,得到所述第一訓練文本的各個分詞;
基于預先設置的評分規則,確定所述第一訓練文本中的每個所述分詞的評分;
依次選取每一個評分滿足預先設置的分詞選取條件的分詞,直至所選取的分詞的個數達到預設個數;
將由依次選取的各個分詞組成的文本確定為與所述第一訓練文本對應的第二訓練文本。
可選的,所述依次選取每一個評分滿足預先設置的分詞選取條件的分詞,直至所選取的分詞的個數達到預設個數,包括:
按照評分從高到低的順序,從所述第一訓練文本的分詞中確定至少一個目標分詞;
依次選取每一個作為目標分詞的分詞,直至所選取的分詞的個數達到預設個數。
可選的,所述分別確定每個所述第二訓練文本的文本向量,包括:
基于word2vec算法依次確定所述第二訓練文本中的每個分詞的向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810305894.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據抽取質量的測試方法及系統
- 下一篇:數據抓取方法、裝置及網絡爬蟲系統





