[發明專利]一種標簽自動提取方法和系統無效
| 申請號: | 201110440739.0 | 申請日: | 2011-12-23 |
| 公開(公告)號: | CN103177036A | 公開(公告)日: | 2013-06-26 |
| 發明(設計)人: | 陳運文;宋海濤;劉作濤 | 申請(專利權)人: | 盛樂信息技術(上海)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明;王寶筠 |
| 地址: | 201203 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標簽 自動 提取 方法 系統 | ||
1.一種標簽自動提取方法,其特征在于,所述方法包括:
抓取中文詞匯和訓練網頁,分別生成中文詞典和訓練樣本庫;
根據所述中文詞典和所述訓練樣本庫中的訓練網頁生成訓練分類模型;
根據所述中文詞典和訓練分類模型對待提取網頁進行標簽提取,生成標簽。
2.根據權利要求1所述的方法,其特征在于,所述抓取中文詞匯和訓練網頁,分別生成中文詞典和訓練樣本庫為:
從網絡中自動抓取中文熱點詞匯,生成中文詞典;
根據預先設定的類別從預置的網址索引中抓取與所述類別對應的訓練網頁,生成訓練樣本庫。
3.根據權利要求2所述的方法,其特征在于,所述根據預先設定的類別從預置的網址索引中抓取與所述類別對應的訓練網頁包括:
確定多個分類類別,為每一個分類類別設置網址索引作為訓練樣本的來源;
從所述網址索引中抽取訓練樣本。
4.根據權利要求1所述的方法,其特征在于,所述根據所述中文詞典和所述訓練樣本庫中的訓練網頁生成訓練分類模型為:
根據所述中文詞典對所述訓練網頁中的文字進行分詞處理,獲取特征詞匯;
獲取所述特征詞匯的分類;
根據所述特征詞匯的分類結果,生成訓練分類模型。
5.根據權利要求4所述的方法,其特征在于,所述獲取所述特征詞匯的分類為:
利用最大熵分類模型獲取所述特征詞匯的分類。
6.根據權利要求1所述的方法,其特征在于,所述根據所述中文詞典和訓練分類模型對待提取網頁進行標簽提取,生成標簽包括:
根據所述中文詞典,對待提取網頁進行分詞處理,獲取特征詞匯;
獲取所述特征詞匯的權重,將權重最高的結果作為第一標簽;
根據獲取的特征詞匯以及所述訓練分類模型獲取所述待提取網頁的分類,將所述分類結果作為第二標簽;
獲取所述待提取網頁的屬性信息,將所述屬性信息作為第三標簽。
7.根據權利要求6所述的方法,其特征在于,所述根據獲取的特征詞匯以及所述訓練分類模型獲取所述待提取網頁的分類包括:
根據訓練分類模型獲取每一個特征詞匯所屬的類別;
將所有特征詞匯所屬的類別進行累加,獲取待提取網頁所屬的類別;
將所述分類結果作為第二標簽為:
將分類結果大于設定閾值的類別作為第二標簽。
8.一種標簽自動提取系統,其特征在于,所述系統包括:
抓取模塊,用于抓取中文詞匯和訓練網頁,分別生成中文詞典和訓練樣本庫;
訓練模塊,用于根據所述中文詞典和所述訓練樣本庫中的訓練網頁生成訓練分類模型;
標簽提取模塊,用于根據所述中文詞典和所述訓練分類模型對待提取網頁進行標簽提取,生成標簽。
9.根據權利要求8所述的系統,其特征在于,所述抓取模塊包括第一抓取模塊和第二抓取模塊,其中,
所述第一抓取模塊用于自動抓取中文熱點詞匯,生成中文詞典;
所述第二抓取模塊用于根據預先設定的類別從預置的網址索引中抓取與所述類別對應的訓練網頁,生成訓練樣本庫。
10.根據權利要求8所述的系統,其特征在于,所述訓練模塊包括:
第一分詞單元,用于根據所述中文詞典對所述訓練網頁中的文字進行分詞處理,獲取特征詞匯;
第一特征提取單元,用于獲取所述特征詞匯的分類;
分類模型生成單元,用于根據所述特征詞匯的分類結果,生成訓練分類模型。
11.根據權利要求8所述的系統,其特征在于,所述標簽提取模塊包括:
第二分詞單元,根據所述中文詞典,對待提取網頁進行分詞處理,獲取特征詞匯;
第一提取模塊,用于獲取所述特征詞匯的權重,將權重最高的結果作為第一標簽;
第二提取模塊,用于根據獲取的特征詞匯以及所述訓練分類模型獲取所述待提取網頁的分類,將所述分類結果作為第二標簽;
第三提取模塊,用于獲取所述待提取網頁的屬性信息,將所述屬性信息作為第三標簽。
12.根據權利要求8所述的系統,其特征在于,所述系統還包括:
第一更新模塊,用于抓取熱點詞匯,對所述中文詞典進行更新;
第二更新模塊,用于生成新的訓練樣本,與原有的訓練樣本進行合并,對所述訓練樣本庫進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛樂信息技術(上海)有限公司,未經盛樂信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110440739.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種安全鉗和限速器的聯動結構
- 下一篇:超薄型電梯顯示器





