[發明專利]基于機器學習的文本分類方法及終端設備在審
| 申請號: | 201811197171.2 | 申請日: | 2018-10-15 |
| 公開(公告)號: | CN109284385A | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 吳壯偉 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/955 |
| 代理公司: | 深圳中一專利商標事務所 44237 | 代理人: | 官建紅 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預設 網頁 網頁文本 文本分類模型 文本分類 詞組 相關度 基于機器 神經網絡 終端設備 集合 錨文本 預設置 子類別 統一資源定位符 抓取 網絡爬蟲 訓練集 分類 學習 | ||
本發明提供了一種基于機器學習的文本分類方法及終端設備,通過網絡爬蟲抓取多個網頁;針對多個網頁中的任一網頁,獲取網頁的統一資源定位符URL和錨文本;對網頁的URL和錨文本進行處理,獲得第一詞組集合;根據第一詞組集合和預設置的第二詞組集合,計算網頁與預設類別的相關度;對與預設類別的相關度大于第一預設值的網頁進行處理得到網頁文本;通過預設訓練集對預設置的深度神經網絡文本分類模型進行訓練,并通過深度神經網絡文本分類模型對網頁文本進行文本分類處理,得到網頁的子類別。本發明通過與預設類別相對應的文本分類模型,對與該預設類別相關度大于第一預設值的網頁文本進行分類,得到該網頁文本的子類別,提高了網頁文本的分類精度。
技術領域
本發明屬于計算機技術領域,尤其涉及一種基于機器學習的文本分類方法及終端設備。
背景技術
隨著互聯網技術的發展,web(萬維網)信息急速膨脹,給人們提供了非常豐富的網絡資源,與此同時,由于web數據存在多樣復雜性、動態性強等特點,使得人們無法快速找到有效的信息并加以利用。
通過web信息采集技術可以幫助人們迅速獲取互聯網上的資源,它是通過網絡爬蟲程序來分析網頁的HTML(HyperText Mark-up Language,超文本標記語言)代碼,獲取網頁的超級鏈接信息,使用廣度優先搜索算法和增量存儲算法,實現自動的連續分析鏈接和抓取文件。
對網絡爬蟲爬取到的文檔進行分類具有諸多好處,例如可通過網絡爬蟲為某一特定行業提供系統收集服務,根據爬蟲爬取到的頁面進行歸類于統計分析,及時向用戶推送分類后的有效信息等。然而,現有技術沒有針對網絡爬蟲爬取到的文檔進行有效分類的方法。
發明內容
有鑒于此,本發明實施例提供了一種基于機器學習的文本分類方法及終端設備,以解決現有技術中無法對爬蟲爬取到的文檔進行精準分類的問題。
本發明實施例的第一方面提供了一種基于機器學習的文本分類方法,包括:
通過網絡爬蟲抓取多個網頁;
針對所述多個網頁中的任一網頁,獲取所述網頁的統一資源定位符URL和錨文本;
對所述網頁的URL和錨文本進行處理,獲得第一詞組集合;
根據所述第一詞組集合和預設置的第二詞組集合,計算所述網頁與預設類別的相關度,其中,所述第二詞組集合中的詞組用于標識所述預設類別;
若所述網頁與預設類別的相關度大于第一預設值,則對所述網頁進行處理得到網頁文本;
獲取預設訓練集,針對所述訓練集中的任一文本,所述文本為經過人工分類的文本,所述文本標注有對應的子類別,所述子類別為預設子類別列表中的一種子類別,所述預設子類別列表中的所有子類別構成所述預設類別;
通過所述訓練集對預設置的深度神經網絡文本分類模型進行訓練,直至達到預設的訓練終止條件,通過所述深度神經網絡文本分類模型對所述網頁文本進行文本分類處理,得到所述網頁的子類別。
本發明實施例的第二方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機可讀指令,所述計算機可讀指令被處理器執行時實現如下步驟:
通過網絡爬蟲抓取多個網頁;
針對所述多個網頁中的任一網頁,獲取所述網頁的統一資源定位符URL和錨文本;
對所述網頁的URL和錨文本進行處理,獲得第一詞組集合;
根據所述第一詞組集合和預設置的第二詞組集合,計算所述網頁與預設類別的相關度,其中,所述第二詞組集合中的詞組用于標識所述預設類別;
若所述網頁與預設類別的相關度大于第一預設值,則對所述網頁進行處理得到網頁文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811197171.2/2.html,轉載請聲明來源鉆瓜專利網。





