[發(fā)明專利]自助分類系統(tǒng)有效
| 申請?zhí)枺?/td> | 201780006568.6 | 申請日: | 2017-04-04 |
| 公開(公告)號: | CN108463795B | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設計)人: | S·赫茲;H·扎羅西姆;O·哈扎伊;O·羅姆;E·阿濟克利;L·溫特勞布;Y·林德曼;E·魏因雷布;S·卡拉曼;Y·本什洛莫;D·萊文森;E·沙拉比;A·R·戈德什拉格 | 申請(專利權)人: | 金融及風險組織有限公司 |
| 主分類號: | G06F3/0482 | 分類號: | G06F3/0482;G06F40/205;G06F16/35;G06K9/62;G10L15/18 |
| 代理公司: | 北京潤平知識產(chǎn)權代理有限公司 11283 | 代理人: | 陳瀟瀟;肖冰濱 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自助 分類 系統(tǒng) | ||
公開了用于生成定制的分類模型的系統(tǒng)、技術和方法。該系統(tǒng)和技術(諸如Thomson Reuters Self?Service ClassificationTM)部分采用機器學習,并部分采用用戶交互式方法以生成定制的分類模型。該系統(tǒng)結合了一種新穎的文本分類方法,其使用較小的初始數(shù)據(jù)集來啟動訓練,并且具有用于定制的獨特的工作流程和用戶交互。
版權聲明
本專利文檔公開的一部分包含受版權保護的材料。版權所有者不反對任何人復制與專利和商標局的專利文檔或記錄中顯示的一致的本專利文檔或專利公開,但是另外無論如何保留所有的版權權利。以下聲明適用于本文檔:2017Thomson Reuters。
相關申請的交叉引用
本申請要求于2016年4月5日提交的標題為“自助分類(Self-ServiceClassification)”的美國臨時申請第62/318,412號,以及于2016年8月17日提交的標題為“自助分類(Self-Service Classification)”的美國臨時申請第62/376,039號的優(yōu)先權。本段中提到的每個申請都通過引用整體并入本文。
技術領域
本公開涉及文檔的分類,并且更具體地涉及用于生成定制的分類模型的方法和系統(tǒng)。
背景技術
許多公司正在積累大量的數(shù)據(jù)。他們每天都會生成和接收無數(shù)的文檔、電子郵件、報告和其他內(nèi)容。將文檔分類到特定主題并創(chuàng)建分類模型的能力可以改進文檔搜索、提高生產(chǎn)力、降低存儲成本并且?guī)椭M行分析以更好地利用數(shù)據(jù)。專業(yè)人員通常需要在大量非結構化文檔中標識特定信息。例如,對“黃金開采”感興趣的專業(yè)人士不可能去閱讀所有提到“黃金”一詞的新聞文檔。由于缺乏適當?shù)墓ぞ撸S多組織和用戶依靠手動分類文檔的方式。該手動分類過程可能需要大量人力、耗時、昂貴并且容易出錯。
手動分類的替代方法是訓練將用來執(zhí)行分類的機器學習模型。但是,為這些模型創(chuàng)建訓練數(shù)據(jù)可能需要大量人力,并且建立和訓練這些模型需要機器學習方面的專業(yè)知識。
通常,將用廣泛的訓練集開始分類過程,其明確標識涵蓋主題的肯定的和否定的文檔。例如,對于50個主題,用戶需要標記具有至少20000個文檔的集合,并且通過標記和標識文檔涵蓋的每個主題來詳盡地標記每個文檔。由于這種進行標記的數(shù)量太大而令人望而生畏,用戶可能會轉而采用基于特定規(guī)則的解決方案,但是它們存在不足且難以維護。另外地,典型的用戶不是計算機科學專業(yè)人員,并且可能沒有辦法開發(fā)機器學習解決方案來加速這一過程。
因此,目前用于生成分類模型的工具需要廣泛的訓練集,它們很難進行管理,并且不允許用戶改善模型的基準質量。我們的系統(tǒng)和技術解決了這兩個問題。
發(fā)明內(nèi)容
公開了用于生成定制的分類模型的系統(tǒng)、技術和方法。該系統(tǒng)和技術(諸如湯森路透自助分類(Thomson Reuters Self-Service ClassificationTM))部分采用機器學習,并部分采用用戶交互式方法生成定制的分類模型。該系統(tǒng)結合了一種新穎的文本分類方法,其使用較小的初始數(shù)據(jù)集來啟動訓練,并且具有用于定制的獨特的工作流程和用戶交互。
該系統(tǒng)的各個方面涉及生成定制的分類模型。例如,根據(jù)一個方面,一種計算機實現(xiàn)的方法包括接收包含肯定標記的文檔集和未標記文檔集的文檔集,處理文檔集以移除文檔內(nèi)的副本文檔和噪聲,生成針對主題集中的每個主題的初步模型,訓練初步模型以基于文檔集確定附加的肯定的和否定的文檔集,其中訓練包含部分地標識來自文檔集中的否定的文檔,使用訓練的初步模型和附加的肯定的和否定的文檔集生成定制的分類模型,并且提供定制的分類模型并且至少提供模型的精度或查全率值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金融及風險組織有限公司,未經(jīng)金融及風險組織有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780006568.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:多模態(tài)感測表面
- 下一篇:顯示裝置以及顯示控制方法
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出





