[發明專利]一種基于類別分布概率的文本特征抽取方法無效
| 申請號: | 201310231448.X | 申請日: | 2013-06-13 |
| 公開(公告)號: | CN103294817A | 公開(公告)日: | 2013-09-11 |
| 發明(設計)人: | 楊燕;李強;潘云;杜澤宇;楊河彬;倪敏杰 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海藍迪專利事務所 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 類別 分布 概率 文本 特征 抽取 方法 | ||
技術領域
本發明涉及計算機文本處理技術,特別是一種基于類別分布概率的文本特征抽取方法。
背景技術
隨著互聯網的高速發展,網絡上的電子文檔數量急劇膨脹,有效地幫助用戶查找、過濾和管理這些海量的文本數據已經成為自然語言處理研究的重要內容。文本的表示及其特征項的選取是文本挖掘、信息檢索的一個基本問題,它把從文本中抽取出的特征詞進行量化來表示文本信息。將它們從一個無結構的原始文本轉化為結構化的計算機可以識別處理的信息,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現對文本的識別。由于文本是非結構化的數據,要想從大量的文本中挖掘有用的信息就必須首先將文本轉化為可處理的結構化形式。目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞軟件得到的特征項來表示文本向量中的各個維,那么這個向量的維度將是非常的大。這種未經處理的文本向量不僅給后續工作帶來巨大的計算開銷,使整個處理過程的效率非常低下,而且會損害分類、聚類算法的精確性,從而使所得到的結果很難令人滿意。因此,在保證原文含義的基礎上,尋找文本中最具類別代表性的文本特征是利用計算機技術解決文本分類問題的關鍵。?
用于表示文本的基本單位通常稱為文本的特征或特征項。特征項必須具備一定的特性:1)?特征項具有將目標文本與其他文本相區分的能力;?2)?特征項的數量要少;?3)?特征項提取容易。目前大多數中文文本分類系統都采用詞作為特征項,稱作特征詞。如果把所有的詞都作為特征項,那么特征向量的維數將過于巨大,從而導致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要目的是在不損傷文本核心信息的情況下盡量減少要處理的單詞數,以此來降低向量空間維數,提高文本處理的速度和效率。文本特征抽取對文本內容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發現、知識發現等有關方面的研究都有非常重要的影響。通常根據某個特征抽取評估函數計算各個特征的評分值,然后按評分值對這些特征進行排序,選取若干數量評分值最高的作為特征詞,這就是特征抽取。
目前利用計算機技術解決文本分類問題一般采用向量空間模型,該模型存在詞空間維度高、計算量大、分類精度不高的問題。
發明內容
本發明的目的是提供一種基于類別分布概率的文本特征抽取方法,該方法極大的降低詞空間的維度,提升計算機的文本分類性能。
本發明的目的是這樣實現的:
一種基于類別分布概率的文本特征抽取方法,該方法可以用于文本分類和聚類等信息檢索任務,其實現需要預定義分類的語料集,對語料中的文本進行分詞處理,去掉停用詞,獲得原始的詞集。然后在該詞集上進行特征抽取,根據定義的特征抽取函數計算每個詞的類別分布概率均方差。對整個詞集中的所有詞匯按照類別概率均方差的大小進行降序排列,抽取預定義數目的方差值大的詞匯作為最終的特征集合,具體操作步驟:?
第一步:選定一定的中文文本集合,對文本集合進行預處理,將語料文本按照預定義的類別進行分類。
第二步:利用分詞軟件對文本進行分詞處理,去掉標點符號和停用詞等的噪音,獲得文本集合的原始的詞集。
第三步:對原始詞集中的每個詞分別統計總詞頻和類別詞頻信息。
第四步:計算各個詞在各個類別中的類別分布概率,獲得詞匯的類別分布概率向量。
???????????????????????????????????????????????????
??????,j=
?????:?詞t?在類別,?j=?中的詞頻;
??????詞t?在類別中的詞頻分布概率;
?????:?詞t的類別分布向量;
?????||:?類?中的文檔數目;
?????m:?類別數目。
第五步:對每個詞的類別分布概率向量求平均值。?????????
?????:詞?t的類別分布概率的均值。
第六步:計算每個詞的類別分布概率均方差。?????????
?????:詞?t的類別分布概率均方差。
第七步:對原始詞集中的每個詞按照類別分布概率均方差的大小進行降序排列,抽取預定義數目的均方差值高的詞作為特征詞集合。
第八步:以獲得的特征詞集構建文本集合的向量空間矩陣。
第九步:利用已有的分類器算法對該向量空間矩陣進行訓練,獲得文本分類模型。
第十步:利用訓練得到的文本分類模型對待分類的文本進行分類,驗證本方法的有效性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310231448.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:光電復合數據電纜
- 下一篇:一種生成飛行器初始雷擊附著點的方法





