[發明專利]文本分類方法及獲得的文本分類器有效
| 申請號: | 201710216502.1 | 申請日: | 2017-04-05 |
| 公開(公告)號: | CN106951565B | 公開(公告)日: | 2018-04-27 |
| 發明(設計)人: | 賈寧;夏磊 | 申請(專利權)人: | 數庫(上海)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海領洋專利代理事務所(普通合伙)31292 | 代理人: | 劉秋蘭 |
| 地址: | 201114 上海市閔行區陳*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 獲得 | ||
技術領域
本發明涉及人工智能的文本分類技術領域,具體涉及一種文本分類方法及獲得的文本分類器。
背景技術
隨著網絡技術的快速發展,對于電子文本信息進行有效地組織和管理,并能快速、準確且全面地從中找到相關信息的要求越來越高。文本分類作為處理和組織大量文本數據的關鍵技術,在較大程度上解決了信息雜亂的問題,方便用戶準確地獲取所需的信息,是信息過濾、信息檢索、搜索引擎及文本數據庫等領域的技術基礎。文本分類一般包括對文本的表達、文本分類器的選擇及訓練、文本分類結果的評價與反饋等過程。現有的文本分類技術通常按照以下步驟實施:(1)確定分類體系;(2)收集待標注語料,形成語料庫;(3)用語料庫訓練分類模型;(4)用訓練好的分類模型對新文本進行分類。
但是,對于以下幾種應用場景,1)對于文本分類體系不均衡,有的類別范疇很大,有的類別范疇很小,如一個類別是“汽車行業”,而另一個類別是“鋰電池”等的應用場景;2)對于易于獲得大量的未標注語料,而獲得標注語料的成本較高的應用場景;3)對于分類體系經常變化,經常新增類別或刪除類別的應用場景,現有的文本分類技術存在有以下的缺陷:(1)在分類體系方面,現有技術都是采用固定的分類體系,即確定分類體系后不能隨便改變。如若需要改變分類體系,需要重新收集語料,重新訓練所有類別的分類模型,此過程需大量的時間和計算資源。(2)在語料庫方面,現有技術需基于一定規模的標注好類別的文本作為訓練語料,而對于標注好類別的文本,往往需要花費大量的人工先進行標注處理,從而增加了投入成本。
發明內容
本發明針對現有技術中文本分類技術的分類體系不能隨意改變,如需改變分類體系需要耗費較多的時間和計算資源,且語料需人工進行標注,需要投入成本較高且耗時長的缺陷,目的在于提供一種可以靈活改變分類體系且自動進行標注文本的文本分類方法,大大地節省了計算資源、時間和成本。
實現上述目的的技術方案是:
本發明獲得用于自動標注語料的文本分類器的方法,該方法包括:
概念確定步驟Ⅰ,確定概念集合,概念集合中的每個概念對應具有至少一個概念關鍵詞的概念關鍵詞集合;
語料自動標注步驟Ⅱ,利用概念集合中每個概念對應的概念關鍵詞集合中的概念關鍵詞對未標注語料文本集合進行匹配處理,并用相應的概念對未標注語料文本集合中的文本進行關聯與自動標注處理,獲得標注語料文本集合;
“標注語料文本集合”包括下列2類文本,第1類為:與概念集合中任一概念相關聯并用該概念進行標注了的文本;第2類為:與概念集合中任何概念均不相關聯的其他文本,但是該類其他文本由于與已經確定的概念均不關聯,可以用“其他”進行標注、或者不做任何標注、或者用其他不與概念詞語混淆的詞語進行標注的文本等等,只要能清晰表明這類文本是能夠與第1類文本進行區分的任何詞語即可。
分類模型訓練步驟Ⅲ,對于概念集合中的每個概念,當與該概念關聯的標注語料文本集合中文本數量符合閾值條件時,則將與該概念關聯的標注語料文本集合中的文本作為文本分類模型的正例,不與該概念關聯的標注語料文本集合中的文本作為文本分類模型的負例,對該概念對應的文本分類模型的正例和負例進行訓練,得到該概念對應的文本分類器,最終獲得所有文本數量符合閾值條件的概念對應的文本分類器。
在本發明的一較佳實施例中,概念確定步驟Ⅰ中,確定概念集合X由概念xi組成,其中i=1,2,3,…n,概念集合X中的每個概念xi對應具有至少一個概念關鍵詞組成的概念關鍵詞集合Yi。
在本發明的一較佳實施例中,語料自動標注步驟Ⅱ包括:
步驟Ⅱ1,根據具體實際應用情況收集足夠數量N的未標注語料,記未標注語料文本集合為D={dj},其中j=1,2,…,N;
步驟Ⅱ2,利用每個概念xi對應的概念關鍵詞集合Yi中的概念關鍵詞對未標注語料文本集合D中的每篇文本分別進行匹配處理,當未標注語料文本集合D中的某一篇文本dj與概念xi對應的概念關鍵詞的匹配情況滿足匹配條件時,則將該篇文本dj標注為與該概念xi相關聯;對未標注語料文本集合D中每篇文本進行匹配處理得到標注語料文本集合C。
在本發明的一較佳實施例中,分類模型訓練步驟Ⅲ包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于數庫(上海)科技有限公司,未經數庫(上海)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710216502.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種一物多用多媒體音箱
- 下一篇:一種呼吸噴霧器





