[發(fā)明專利]一種人機交互的文本分類方案在審
| 申請?zhí)枺?/td> | 201810233929.7 | 申請日: | 2018-03-21 |
| 公開(公告)號: | CN108549665A | 公開(公告)日: | 2018-09-18 |
| 發(fā)明(設計)人: | 袁波 | 申請(專利權)人: | 上海蔚界信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 201913 上海市崇明區(qū)*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本分類 人機交互 建模 文本類數(shù)據(jù) 分類模型 輔助人工 框架體系 類別定義 內(nèi)容組合 人工模型 樹形分類 文本數(shù)據(jù) 學習算法 整體模型 自動分類 自動計算 單節(jié)點 多層級 準確率 構建 預覽 疊加 搜索 并列 提示 自學 覆蓋率 關聯(lián) 應用 分析 | ||
本發(fā)明公開了一種人機交互的文本分類方案,它涉及文本類數(shù)據(jù)分析領域。本發(fā)明的文本分類方案采用多層級樹形分類體系,單節(jié)點可設置多套不同規(guī)則,每種規(guī)則基于必出現(xiàn)詞,并列出現(xiàn)詞,不可出現(xiàn)詞三種類型內(nèi)容組合而成;同時,由機器自動計算并提供重要提示詞、關聯(lián)推薦詞、建議的內(nèi)容、搜索預覽等功能,輔助人工建模;建模完成后,由機器利用學習算法自學人工模型結果,并疊加應用到模型上,強化整體模型。本發(fā)明設計合理,明確了一套分類模型構建的框架體系和方式方法,使文本數(shù)據(jù)的類別定義和自動分類變得簡單快速的同時,保障準確率和覆蓋率。
技術領域
本發(fā)明涉及的是文本類數(shù)據(jù)分析領域,具體涉及一種以人機交互的形式進行的文本數(shù)據(jù)分類模型構建和自動分類方案。
背景技術
目前對于文本數(shù)據(jù)的分類比較常見,如新聞分類、客服對話分類、社交內(nèi)容分類等。具體建模和分類的方法主要分為兩種,一種是機器學習進行訓練形成分類器,另一種是通過建立關鍵詞集合搜索形成分類。第一種基于機器學習的方法,對于固定類別的分析準確率較高,但存在以下問題:1.需要尋找大量訓練樣本,不適合小數(shù)據(jù)量;2.樣本需要人工閱讀標注類型,工作量大;3.需要專業(yè)人士構建模型,難度高;4.生成的模型是黑盒,沒有邏輯,無法從業(yè)務上進行理解和使用;5.不能進行經(jīng)常的變更和調整,靈活性差。第二種基于關鍵詞集合搜索的方法,若僅用一些關鍵詞,則準確率很低;若使用復雜的關鍵詞規(guī)則,則覆蓋率很低,其缺點在于缺少一套合理的構建標準,并且構建模型時可能性太多,讓人無從下手。
綜上所述,本發(fā)明設計了一種人機交互的文本分類方案。
發(fā)明內(nèi)容
針對現(xiàn)有技術上存在的不足,本發(fā)明目的是在于提供一種人機交互的文本分類方案,其設計合理,明確了一套分類模型構建的框架體系和方式方法,使文本數(shù)據(jù)的類別定義和自動分類變得簡單快速的同時,保障準確率和覆蓋率。
為了實現(xiàn)上述目的,本發(fā)明是通過如下的技術方案來實現(xiàn):一種人機交互的文本分類方案,采用多層級樹形分類體系,單節(jié)點可設置多套不同規(guī)則,每種規(guī)則基于必出現(xiàn)詞,并列出現(xiàn)詞,不可出現(xiàn)詞三種類型內(nèi)容組合而成;同時,由機器自動計算并提供重要提示詞、關聯(lián)推薦詞、建議的內(nèi)容、搜索預覽等功能,輔助人工建模;建模完成后,由機器利用學習算法自學人工模型結果,并疊加應用到模型上,強化整體模型。
分類邏輯體系是一種多層級的樹形分類。由一個總節(jié)點出發(fā),總節(jié)點代表模型本身,用模型名稱表示。總節(jié)點下可以創(chuàng)建一個或多個一級根節(jié)點,每一個根節(jié)點代表該模型下的一個大類,節(jié)點名稱即為分類標簽名稱。每一個根節(jié)點大類下,可以創(chuàng)建若干個子節(jié)點,子節(jié)點下依然可以創(chuàng)建子節(jié)點的子節(jié)點,以此類推,并分別用類別標簽名稱命名各個節(jié)點。最終,可以形成一個含有總節(jié)點、根節(jié)點和多層子節(jié)點的多層級樹形分類體系。
此分類體系下,每一個節(jié)點,均由一定規(guī)則構成,分類時,計算機掃描每一段文檔,基于規(guī)則打上相應分類標簽。其中,子節(jié)點繼承父節(jié)點規(guī)則,即只有符合父節(jié)點規(guī)則,才進一步判斷是否符合子節(jié)點規(guī)則,因此打上子節(jié)點分類標簽的內(nèi)容一定也會打上父節(jié)點分類標簽。當父節(jié)點規(guī)則為空時,則其內(nèi)容由所有打上子節(jié)點分類標簽內(nèi)容構成。最末端節(jié)點規(guī)則通常不為空。
本發(fā)明與現(xiàn)有技術相比有如下優(yōu)勢和有益效果:
1.構建方法簡單易用,不需要專業(yè)技術人員參與開發(fā),直接由一線業(yè)務需求者即可完成建模;
2.建模過程中,機器給予人工大量提示詞和推薦詞,并提示人工正確/錯誤,建模的效率和效果遠高于其他方法;
3.以三層或多層級(通常為三層級)關鍵詞規(guī)則的形式設計模型框架,準確合理,在保證準確率的同時,使得模型可優(yōu)化、可微調、可變更,便于理解和實際投入應用;
4.機器學習輔助功能使得模型覆蓋率和準確率顯著高于其他方案。
附圖說明
下面結合附圖和具體實施方式來詳細說明本發(fā)明;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海蔚界信息科技有限公司,未經(jīng)上海蔚界信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810233929.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





