[發(fā)明專利]基于全文的大文本CRF和規(guī)則分類方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710685936.6 | 申請日: | 2017-08-11 |
| 公開(公告)號: | CN107368610B | 公開(公告)日: | 2020-07-17 |
| 發(fā)明(設計)人: | 譚培波;史曉凌;茹海燕 | 申請(專利權)人: | 北京智通云聯科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京遠大卓悅知識產權代理事務所(普通合伙) 11369 | 代理人: | 史霞 |
| 地址: | 100012 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 全文 文本 crf 規(guī)則 分類 方法 系統(tǒng) | ||
本發(fā)明提供了一種基于全文的大文本CRF和規(guī)則分類方法和系統(tǒng),是條件隨機場和規(guī)則分類方法相結合,對大文本的全文進行分類。對輸入大文本的標題部分采用基于語義的統(tǒng)計CRF分類方法;對大文本的正文部分采用基于規(guī)則的詞袋分類方法;最后按照CRF分類結果為主規(guī)則分類結果為輔的方式對分類結果進行整合、去重、排序,輸出語義層次和字符層次整合的最終分類結果。這種方法由于解決了標題的高度抽象性和正文的實體繁雜性之間的矛盾,實現了對文本不同視角的認識,滿足了不同人群對大文本的個性化認識,具有全文分類整體準確度高的特點。
技術領域
本發(fā)明屬于文本處理領域,尤其涉及到一種基于全文的大文本CRF和規(guī)則分類方法和系統(tǒng)。
背景技術
自然語言,尤其是文字,是人類知識和智慧的主要載體。如何從文本中挖掘出有用的知識,并由此升華成獨到的洞見,是當下互聯網時代和未來人工智能時代的主要目標。分類作為自然語言處理的基本任務,將在自然語言知識挖掘中占據核心地位。
一般互聯網上的文本都比較短,因此對它的分類和挖掘不會出現準確度低的問題。但是對于某些行業(yè)領域的應用,比如石油行業(yè)上游研發(fā)板塊,其研發(fā)所參考的文獻基本都超過300頁以上,而且圖文并茂、內容廣泛,使得一般短文本分類方法難以對其進行準確分類。
基于規(guī)則的大文本分類方法,以詞袋為基礎進行集合運算得到特征詞,通過文本與特征詞集合的比較來確定類屬關系。規(guī)則方法由于破壞了以句子為載體的文本語義,一般用于確定文本字符在類中的份量,是一種字面意義的分類。但是大文本一般都有一個超越字面意義的、抽象度更高、視野更寬闊的意義類,這一般體現為文本的標題、摘要、關鍵詞、前言、簡介等部分。而這一意涵豐富的部分如果拆分成無序的詞袋,將失去其凝聚為一體的高層意義,如果采用規(guī)則分類,分類準確度很低,不能滿足業(yè)務需求。
純粹基于統(tǒng)計的分類方法,由于文本規(guī)模大,比如超過30萬字,任何一種統(tǒng)計方法都將解析出大量的統(tǒng)計特征,在大數據下對這些特征進行優(yōu)化計算,將耗費大量的系統(tǒng)資源,比如超過200G的內存都不能有效的進行分類模型的迭代計算,計算出來的模型超過5G以上,在運行時將占據大量的內存空間。因此統(tǒng)計的方法雖然有準確度的優(yōu)勢,但是卻受到了計算資源的限制,也不能有效而準確的工作。
發(fā)明內容
本發(fā)明提供了一種基于全文的大文本CRF和規(guī)則分類方法和系統(tǒng),是條件隨機場(CRF:Conditional Random Filed)和規(guī)則分類方法相結合,對大文本的全文進行分類。對輸入大文本的標題部分采用基于語義的統(tǒng)計CRF分類方法;對大文本的正文部分采用基于規(guī)則的詞袋分類方法;最后按照CRF分類結果為主規(guī)則分類結果為輔的方式對分類結果進行整合、去重、排序,輸出語義層次和字符層次整合的最終分類結果。這種方法由于解決了標題的高度抽象性和正文的實體繁雜性之間的矛盾,實現了對文本不同視角的認識,滿足了不同人群對大文本的個性化認識,具有全文分類整體準確度高的特點。
本發(fā)明提供一種基于全文的大文本CRF和規(guī)則分類方法,其包括以下步驟:
將待拆分文件拆分成標題文本和正文文本兩部分并分別保存;
采用CRF文本處理方式對所述標題文本進行處理得到文件名和分類分本之間的對應關系,根據每個分類目錄下存儲的文件名進行三級分詞處理并對分詞結果進行分類標注,并采用CRF learn方法進行標題分類建模得到CRF模型;
采用DEC文本處理方式對所述正文文本進行處理得到分詞文本和分類分本之間的對應關系,根據每個分類目錄下存儲分詞文本進行三級分詞處理并對分詞結果構建DEC張量并進行DEC類處理得到DEC模型;
獲取待分類文件并將其拆分成待分類標題文本和待分類正文文本兩部分分別保存;
將所述待分類標題文本進行三級分詞處理并采用CRF test方法調用所述CRF模型計算得出CRF分類結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智通云聯科技有限公司,未經北京智通云聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710685936.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生物質能負壓懸浮式燃燒室
- 下一篇:一種沸騰爐風帽





