[發明專利]參考外部知識構建文本分類器的方法和設備有效
| 申請號: | 200910171947.8 | 申請日: | 2009-09-22 |
| 公開(公告)號: | CN102023986A | 公開(公告)日: | 2011-04-20 |
| 發明(設計)人: | 李建強;趙彧;劉博 | 申請(專利權)人: | 日電(中國)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京東方億思知識產權代理有限責任公司 11258 | 代理人: | 李曉冬;南霆 |
| 地址: | 100084 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 參考 外部 知識 構建 文本 分類 方法 設備 | ||
技術領域
本發明一般地涉及信息檢索和文本分類。更具體而言,本發明涉及參考外部知識構建文本分類器的方法和設備。
背景技術
隨著電子化辦公和因特網的飛速發展,電子文本的信息量成爆炸趨勢增長,并且大規模的自動信息處理已經成為人們更好地利用這種大規模信息的必要手段和挑戰。
信息檢索是指信息按一定的方式組織起來,并根據信息用戶的需要找出有關的信息的過程和技術。而文本自動分類是實現信息檢索的主要支撐技術之一,其基本目的是將文本劃分到預定義的類中,幫助人們檢索、查詢、過濾和利用信息的有效手段。早期的文本分類采用的是基于知識工程和專家系統的方法,可是這樣的方法非常復雜和缺乏靈活性。隨著機器學習的興起和發展,很多機器學習的分類器模型被引入的文本分類領域中,從不同的方面取得了不錯的效果,目前已經成為實現自動文本分類的主流技術。
基于機器學習的文本分類通過最終構建的文本分類器來實現,而其性能很大程度上依賴于所使用的訓練數據(文本)集合,這樣就造成訓練數據的選擇成為其中的關鍵。
所謂訓練數據的選擇是指從給定的具有類別標簽的文本集合(標注文本集)中選擇其中的一個子集用來訓練相應的文本分類器。好的訓練數據選擇方法一方面通過減少訓練文本的數量能夠大幅度提高構建分類器的效率,另一方面通過提高訓練文本的質量提高訓練得到分類器的泛化能力和魯棒性,從而保證分類的精度。
目前已經存在一些相關的用于訓練文本選擇的專利和研究技術。
例如,在題為“Creating?taxonomies?and?training?data?for?document?categorization”的美國專利US?7409404B2中提供了一種訓練文本選擇技術,其主要在盡量消除擴類別的特征的干擾的前提下,通過給定標注文本的統計信息來精化訓練文本數據的質量。
另外,在Wang,J、Neskovic,P和Cooper,L.N所編寫的題為“Training?data?selection?for?support?vector?machines”的非專利文獻(In:LNCS?vol.3610?2005)(下稱非專利文獻1)中也描述了兩種利用給定標注文本集合的內部統計特征來進行訓練文本選擇并進而學習生成文本分類器的設備和方法。其具體結構框圖和工作流程如圖1和圖2所示。
如圖1所示,根據該現有技術的文本分類器構建設備100由輸入裝置101、文本向量化裝置102、基于統計方法的訓練文本選擇裝置103和分類器學習裝置104構成。輸入裝置101從標注文本存儲單元105輸入一組標注文本。文本向量化裝置102對輸入的每個標注文本進行向量化,并將生成的對應于每個標注文本的向量空間模型(VSM)存儲到向量空間模型(VSM)存儲單元106中。然后,基于統計方法的訓練文本選擇裝置103基于統計方法對已經向量化的每個標注文本進行打分并從中選出適當的訓練文本。選出的訓練文本隨后被分類器學習裝置104用于學習生成文本分類器。
圖2示出了圖1所示文本分類器構建設備100的示意性工作流程。在非專利文獻1所公開的技術內容中記載了兩種根據標注文本集合的內部特征來進行訓練文本選擇并進而學習生成文本分類器的示例性方法,即示例方法1和示例方法2。在示例方法1中,以每個標注文本xi為中心的最大的不包含其他類別的標注文本的圓形區域中所包含的標注文本的個數被記作N(xi);并且挑選其中具有最小N(xi)的圓形區域中的標注文本,作為訓練文本集。在示例方法2中,計算每個標注文本xi到其他類別的標注文本的凸集的距離d(xi);并且挑選具有最小d(xi)的標注文本,作為訓練文本。
無論示例方法1還是示例方法2,作為計算統計量的特征都只來源于給定的標注文本集自身,其中只考慮了給定標注文本集內部的樣本分布。因此,最后構建的文本分類器必然完全受給定標注文本的影響,從而造成此分類器的泛化能力和魯棒性差。
雖然現有技術中還存在其他訓練文本選擇方法,但是,目前的訓練文本選擇方法主要都是利用給定標注文本集中的內部知識來實現的,即,所采用的特征及權重完全依賴于給定標注文本集合的數據分布,從而使選擇出來的訓練文本會具有很強的偏向性。這種偏向性會傳播到最終構建的分類器的分類取向,使其泛化能力和魯棒性受到很大的影響,最終造成分類器性能不理想。
發明內容
本發明正是考慮到上述現有技術中存在的問題而研制的。
根據本發明的思想,來源于外部知識源(例如,詞義詞典)的外部特征被引入到訓練文本的選擇過程中,具體講,本發明的核心實現主要體現在以下兩個方面:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日電(中國)有限公司,未經日電(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910171947.8/2.html,轉載請聲明來源鉆瓜專利網。





