[發明專利]網頁文本分類的方法和裝置，網頁文本識別的方法和裝置有效

申請號：	201610195483.4	申請日：	2016-03-30
公開（公告）號：	CN107291723B	公開（公告）日：	2021-04-30
發明（設計）人：	段秉南	申請（專利權）人：	阿里巴巴集團控股有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F16/36;G06F16/95
代理公司：	北京潤澤恒知識產權代理有限公司 11319	代理人：	趙娟
地址：	英屬開曼群島大開***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網頁文本分類方法裝置識別
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例提供了一種網頁文本分類的方法和裝置，網頁文本識別的方法和裝置，該網頁文本分類的方法包括：采集網頁中的文本數據；對所述文本數據進行分詞，獲得基礎分詞；計算各基礎分詞的第一屬性值和第二屬性值；依據所述第一屬性值和第二屬性值計算各基礎分詞的特征值；依據所述特征值從所述基礎分詞中篩選出特征分詞；計算各特征分詞相應的權重；將所述權重作為相應特征分詞的特征向量，采用所述特征向量訓練出分類模型。本申請實施例不僅有效保證了特征提取的客觀性與準確性，還兼顧了特征對分類影響，從而提高了網頁文本分類的準確性，更方便于用戶在海量的文本中及時準確地獲得有效的信息。

技術領域

本申請涉及文本分類的技術領域，特別是涉及一種網頁文本分類的方法，一種網頁文本分類的裝置，一種網頁文本識別的方法，以及，一種網頁文本識別的裝置。

背景技術

在當今的信息社會，各種形式的信息都極大的豐富了人們的生活，尤其隨著Internet的大規模普及，網絡上的信息量在飛速增長當中，如各種電子文檔、電子郵件和網頁充滿網絡上，從而造成信息雜亂。為了快速、準確、全面地找到我們所需要的信息，文本分類成為了有效組織和管理文本數據的重要方式，越來越受到廣泛的關注。

網頁文本分類是指按照預先定義的主題類別，根據海量網頁文檔的內容，確定相應網頁的類別。網頁文本分類采用的技術基礎是基于內容的純文本分類。基本方法是，在抓取到的網頁集合中，對每篇網頁文本進行純文本的內容抽取，得到相應的純文本。再將抽取出的純文本組成新的文檔集合，在新的文檔集合上應用純文本分類算法進行分類。再根據純文本與網頁文本的對應關系，對網頁文本進行分類，即應用網頁的純文本內容信息，對網頁進行分類。

由于海量文本所具有的多意性、模糊性、各異性等特點，已有技術中，在分類特征的選取上難以令人滿意，例如，往往會夸大某些無效詞的作用，或者，忽略某些特征分詞的重要屬性，從而導致網頁文本分類的準確度極低。

發明內容

鑒于上述問題，提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種網頁文本分類的方法，一種網頁文本識別的方法，和相應的一種網頁文本分類的裝置，一種網頁文本識別的裝置。

為了解決上述問題，本申請實施例公開了一種網頁文本分類的方法，包括：

采集網頁中的文本數據；

對所述文本數據進行分詞，獲得基礎分詞；

計算各基礎分詞的第一屬性值和第二屬性值；

依據所述第一屬性值和第二屬性值計算各基礎分詞的特征值；

依據所述特征值從所述基礎分詞中篩選出特征分詞；

計算各特征分詞相應的權重；

將所述權重作為相應特征分詞的特征向量，采用所述特征向量訓練出分類模型。

優選地，所述第一屬性值為所述基礎分詞的信息增益值，所述第二屬性值為所述基礎分詞相對于預定義的各個分類的卡方統計量值的標準差，所述特征值為所述基礎分詞的區分度。