[發(fā)明專利]網(wǎng)頁文本分類的方法和裝置,網(wǎng)頁文本識別的方法和裝置有效
| 申請?zhí)枺?/td> | 201610195483.4 | 申請日: | 2016-03-30 |
| 公開(公告)號: | CN107291723B | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計)人: | 段秉南 | 申請(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F16/95 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 趙娟 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 文本 分類 方法 裝置 識別 | ||
1.一種網(wǎng)頁文本分類的方法,其特征在于,包括:
采集網(wǎng)頁中的文本數(shù)據(jù);
對所述文本數(shù)據(jù)進(jìn)行分詞,獲得基礎(chǔ)分詞;
計算各基礎(chǔ)分詞的第一屬性值和第二屬性值;其中,所述第一屬性值為所述基礎(chǔ)分詞的信息增益值,所述第二屬性值為所述基礎(chǔ)分詞相對于預(yù)定義的各個分類的卡方統(tǒng)計量值的標(biāo)準(zhǔn)差;
依據(jù)所述第一屬性值和第二屬性值計算各基礎(chǔ)分詞的特征值;
依據(jù)所述特征值從所述基礎(chǔ)分詞中篩選出特征分詞;
計算各特征分詞相應(yīng)的權(quán)重;
將所述權(quán)重作為相應(yīng)特征分詞的特征向量,采用所述特征向量訓(xùn)練出分類模型;
其中,所述特征值為所述基礎(chǔ)分詞的區(qū)分度;
通過如下公式依據(jù)所述第一屬性值和第二屬性值計算各基礎(chǔ)分詞的特征值:
其中,score為基礎(chǔ)分詞的區(qū)分度,igScore為基礎(chǔ)分詞的信息增益值,chiScore為基礎(chǔ)分詞對相對于預(yù)定義的各個分類的卡方統(tǒng)計量值,所述n為預(yù)定義的分類的數(shù)量。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)所述特征值從所述基礎(chǔ)分詞中篩選出特征分詞的步驟包括:
將所述基礎(chǔ)分詞按照其對應(yīng)的特征值由高至低排列;
提取預(yù)設(shè)數(shù)量的,所述特征值高于預(yù)設(shè)閾值的基礎(chǔ)分詞作為特征分詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算各特征分詞相應(yīng)的權(quán)重的步驟包括:
獲取各特征分詞在相應(yīng)網(wǎng)頁的文本數(shù)據(jù)中出現(xiàn)的次數(shù);
統(tǒng)計所述網(wǎng)頁的文本數(shù)據(jù)中特征分詞的總數(shù);
依據(jù)所述特征分詞的特征值,各特征分詞在相應(yīng)網(wǎng)頁的文本數(shù)據(jù)中出現(xiàn)的次數(shù),以及,所述網(wǎng)頁的文本數(shù)據(jù)中特征分詞的總數(shù),計算得到各特征分詞相應(yīng)的權(quán)重。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,通過如下公式依據(jù)所述特征分詞的特征值,各特征分詞在相應(yīng)網(wǎng)頁的文本數(shù)據(jù)中出現(xiàn)的次數(shù),以及,所述網(wǎng)頁的文本數(shù)據(jù)中特征分詞的總數(shù),計算得到各特征分詞相應(yīng)的權(quán)重:
其中,weight為特征分詞的權(quán)重,tf為特征分詞在相應(yīng)網(wǎng)頁的文本數(shù)據(jù)中出現(xiàn)的次數(shù),n為網(wǎng)頁的文本數(shù)據(jù)中特征分詞的總數(shù),score為特征分詞的區(qū)分度。
5.根據(jù)權(quán)利要求1或4所述的方法,其特征在于,所述計算各特征分詞相應(yīng)的權(quán)重的步驟還包括:
對所述特征分詞的權(quán)重進(jìn)行歸一化處理。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,通過以下公式對所述特征分詞的權(quán)重進(jìn)行歸一化處理:
其中,norm(weight)為歸一化之后的權(quán)重,weight為所述特征分詞的權(quán)重,min(weight)為所述網(wǎng)頁中文本數(shù)據(jù)中最小weight值,max(weight)為所述網(wǎng)頁中文本數(shù)據(jù)中最大weight值。
7.一種網(wǎng)頁文本識別的方法,其特征在于,包括:
提取待識別網(wǎng)頁中的文本數(shù)據(jù);
對所述文本數(shù)據(jù)進(jìn)行分詞,獲得基礎(chǔ)分詞;
計算各基礎(chǔ)分詞的第一屬性值和第二屬性值;其中,所述第一屬性值為所述基礎(chǔ)分詞的信息增益值,所述第二屬性值為所述基礎(chǔ)分詞相對于預(yù)定義的各個分類的卡方統(tǒng)計量值的標(biāo)準(zhǔn)差;
依據(jù)所述第一屬性值和第二屬性值計算各基礎(chǔ)分詞的特征值;
依據(jù)所述特征值從所述基礎(chǔ)分詞中篩選出特征分詞;
計算各特征分詞相應(yīng)的權(quán)重;
將所述權(quán)重作為特征向量輸入預(yù)先訓(xùn)練出的分類模型中,獲得分類信息;
針對所述待識別網(wǎng)頁標(biāo)記分類信息;
其中,所述特征值為所述基礎(chǔ)分詞的區(qū)分度;通過如下公式依據(jù)所述第一屬性值和第二屬性值計算各基礎(chǔ)分詞的特征值:
其中,score為基礎(chǔ)分詞的區(qū)分度,igScore為基礎(chǔ)分詞的信息增益值,chiScore為基礎(chǔ)分詞對相對于預(yù)定義的各個分類的卡方統(tǒng)計量值,所述n為預(yù)定義的分類的數(shù)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610195483.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





