[發明專利]一種基于機器學習的文本分類方法及終端設備在審
| 申請號: | 201811181954.1 | 申請日: | 2018-10-11 |
| 公開(公告)號: | CN109471937A | 公開(公告)日: | 2019-03-15 |
| 發明(設計)人: | 吳壯偉 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 深圳中一專利商標事務所 44237 | 代理人: | 官建紅 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 文本 文本分類 文本分類模型 基于機器 網頁內容 終端設備 訓練集 標簽數據 標題數據 分詞處理 分詞結果 分類文本 欄目數據 特征向量 網絡爬蟲 正文數據 特征化 向量化 網站 預設 詞語 學習 分類 論壇 | ||
本發明提供了一種基于機器學習的文本分類方法及終端設備,包括:通過網絡爬蟲,爬取預設論壇網站的多個網頁的網頁內容;針對多個網頁中的任一網頁,對網頁的網頁內容進行處理,獲得網頁所對應的一個文本,文本包括網頁的欄目數據、標題數據、正文數據及標簽數據;獲取訓練集,包括多個網頁所對應的多個文本;針對訓練集中的任一文本,為文本設置標識,標識用于表示文本的類別;對文本進行分詞處理,并對分詞結果向量化,獲得文本所對應的特征向量;通過訓練集對文本分類模型進行訓練;通過完成訓練的文本分類模型,對待分類文本進行分類。結合詞語在網頁中的位置,對網頁所對應的文本進行特征化,提高了文本分類精度。
技術領域
本發明屬于計算機技術領域,尤其涉及一種基于機器學習的文本分類方法及終端設備。
背景技術
隨著互聯網技術的發展,web(萬維網)信息急速膨脹,給人們提供了非常豐富的網絡資源,與此同時,由于web數據存在多樣復雜性、動態性強等特點,使人們在如何有效利用它們面臨一定的挑戰。
對網絡文本進行分類具有諸多好處,如向用戶推送用戶感興趣的某一類別的信息,進而提高用戶的使用體驗等等。因此,對海量電子信息進行有效的組織和分類十分重要。然而,現有的文本分類方法,文本分類效率和分類精度都較低。
發明內容
有鑒于此,本發明實施例提供了一種基于機器學習的文本分類方法及終端設備,以解決現有技術中文本分類效率低的問題。
本發明實施例的第一方面提供了一種基于機器學習的文本分類方法,包括:
通過網絡爬蟲,爬取預設論壇網站的多個網頁的網頁內容;
針對所述多個網頁中的任一網頁,對所述網頁的網頁內容進行處理,獲得所述網頁所對應的一個文本,所述文本包括所述網頁的欄目數據、標題數據、正文數據及標簽數據;
獲取訓練集,所述訓練集包括所述多個網頁所對應的多個文本;
針對所述訓練集中的任一文本,為所述文本設置標識,所述標識用于表示所述文本的類別;
對所述文本進行分詞處理,并對分詞結果向量化,獲得所述文本所對應的特征向量;
通過所述訓練集對文本分類模型進行訓練;
通過完成訓練的文本分類模型,對待分類文本進行分類。
本發明實施例的第二方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機可讀指令,所述計算機可讀指令被處理器執行時實現如下步驟:
通過網絡爬蟲,爬取預設論壇網站的多個網頁的網頁內容;
針對所述多個網頁中的任一網頁,對所述網頁的網頁內容進行處理,獲得所述網頁所對應的一個文本,所述文本包括所述網頁的欄目數據、標題數據、正文數據及標簽數據;
獲取訓練集,所述訓練集包括所述多個網頁所對應的多個文本;
針對所述訓練集中的任一文本,為所述文本設置標識,所述標識用于表示所述文本的類別;
對所述文本進行分詞處理,并對分詞結果向量化,獲得所述文本所對應的特征向量;
通過所述訓練集對文本分類模型進行訓練;
通過完成訓練的文本分類模型,對待分類文本進行分類。
本發明實施例的第三方面提供了一種終端設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機可讀指令,所述處理器執行所述計算機可讀指令時實現如下步驟:
通過網絡爬蟲,爬取預設論壇網站的多個網頁的網頁內容;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811181954.1/2.html,轉載請聲明來源鉆瓜專利網。





