[發明專利]一種動態輿情關鍵詞抽取系統和方法有效
| 申請號: | 201210586409.7 | 申請日: | 2012-12-28 |
| 公開(公告)號: | CN103186662A | 公開(公告)日: | 2013-07-03 |
| 發明(設計)人: | 趙樹合;楊小豹;鞏在飛 | 申請(專利權)人: | 中聯競成(北京)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京元中知識產權代理有限責任公司 11223 | 代理人: | 王明霞 |
| 地址: | 100085 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 輿情 關鍵詞 抽取 系統 方法 | ||
1.一種動態輿情關鍵詞抽取系統,其特征在于:包括抽取模塊,映射模塊,分詞空間,計算模塊,標記模塊,抽取模塊以用戶輸入的關鍵詞進行目標信息的樣本抽取,映射模塊將抽取目標信息的文本信息映射到分詞空間中進行分詞處理,計算模塊將分詞處理后的中文詞匯表達為向量,根據中文詞匯的權重系數以及詞頻對中文詞匯進行權重指數的計算,選取出標簽關鍵詞傳送至標記模塊,進行信息的標簽關鍵詞標記,并生成一索引文件。
2.根據權利要求1所述的一種動態輿情關鍵詞抽取系統,其特征在于:所述的目標信息是用戶以特定關鍵詞搜索到的網頁文本信息,或者視頻轉化文本后的文本信息。
3.根據權利要求1所述的一種動態輿情關鍵詞抽取系統,其特征在于:所述的映射模塊將文本信息映射到分詞空間中,采用中文分詞技術對文本中的整句話進行分詞處理,分成若干中文詞匯。
4.根據權利要求3所述的一種動態輿情關鍵詞抽取系統,其特征在于:所述的映射模塊將分詞后的中文詞匯進行預處理,去掉高頻詞匯。
5.根據權利要求4所述的一種動態輿情關鍵詞抽取系統,其特征在于:所述的高頻詞匯包括“的”一類的無實際意義的副詞、介詞、連詞、助詞、嘆詞等虛詞。
6.根據權利要求1所述的一種動態輿情關鍵詞抽取系統,其特征在于:所述的計算模塊將對去掉高頻詞后的中文分詞結果進行信息熵計算,所述的信息熵計算即將中文分詞結果的單個詞語計算器權重系數后表達為向量,抽取其特征向量。
7.根據權利要求6所述的一種動態輿情關鍵詞抽取系統,其特征在于:所述的權重系數中,是根據中文詞匯的詞性、出現位置、詞頻、地名、人名、分詞特征、專有名詞等要素自動給出的,各要素的權重系數是由用戶結合樣本的特點設定的。
8.根據權利要求7所述的一種動態輿情關鍵詞抽取系統,其特征在于:所述的計算模塊將目標信息中文分詞處理后的包含的所有中文詞匯的權重指數進行歸一化處理,并根據歸一化后的權重指數進行排序,并篩選出標簽關鍵詞。
9.根據權利要求8所述的一種動態輿情關鍵詞抽取系統,其特征在于:所述的標記模塊根據目標信息的標簽關鍵詞對目標信息進行關鍵詞標記,統計成一個方便用戶查詢的索引文件。
10.具有如權利1-9中的任一項所述的一種動態輿情關鍵詞抽取系統的動態輿情關鍵詞抽取方法,其特征在于:包括如下步驟:
(1)、用戶輸入查詢關鍵詞至抽取模塊,抽取模塊搜索出目標信息,并生成目標信息的網頁文本信息或者是視頻轉化文本信息;
(2)、映射模塊將文本信息映射到中文分詞空間中進行分詞處理成若干中文詞匯,并去掉一些介詞或虛詞等無實際意義詞性的高頻詞;
(3)、計算模塊對將去掉高頻詞后的中文分詞結果進行分詞計算,即將文本向量化,抽取其特征向量;
(4)、計算模塊將目標信息中文分詞處理后的包含的所有中文詞匯的權重指數進行歸一化處理,并根據歸一化后的權重指數進行排序,并篩選出標簽關鍵詞;
(5)、標記模塊根據目標信息的標簽關鍵詞對目標信息進行關鍵詞標記,統計成一個方便用戶查詢的索引文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中聯競成(北京)科技有限公司,未經中聯競成(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210586409.7/1.html,轉載請聲明來源鉆瓜專利網。





