[發明專利]自助分類系統有效
| 申請號: | 201780006568.6 | 申請日: | 2017-04-04 |
| 公開(公告)號: | CN108463795B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | S·赫茲;H·扎羅西姆;O·哈扎伊;O·羅姆;E·阿濟克利;L·溫特勞布;Y·林德曼;E·魏因雷布;S·卡拉曼;Y·本什洛莫;D·萊文森;E·沙拉比;A·R·戈德什拉格 | 申請(專利權)人: | 金融及風險組織有限公司 |
| 主分類號: | G06F3/0482 | 分類號: | G06F3/0482;G06F40/205;G06F16/35;G06K9/62;G10L15/18 |
| 代理公司: | 北京潤平知識產權代理有限公司 11283 | 代理人: | 陳瀟瀟;肖冰濱 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自助 分類 系統 | ||
1.一種自助分類方法,包含:
接收包含肯定標記的文檔集和未標記文檔集的文檔集,其中所述肯定標記的文檔集為包含或討論一個主題的文檔,所述未標記文檔集為對于討論一個主題沒有被指定為肯定或否定的文檔;
處理所述文檔集以移除所述文檔內的副本文檔和噪聲;
為所述文檔集中的主題集中的每個主題生成初步模型;
訓練所述初步模型以基于縮減的文檔集來確定附加的肯定的和否定的文檔集,其中所述縮減的文檔集包括肯定標記的文檔集和所述未標記文檔集的小子集,其中所述訓練包括:
識別所述文檔集中的肯定文檔所遵循的規則集;
通過所識別的規則集來識別并排除所述未標記文檔集中的明確否定文檔,所述明確否定文檔為不遵循所述規則集的文檔,且所述明確否定文檔被從所述未標記文檔集中移除,以留下遵循所述規則集的所述未標記文檔集的所述小子集;并且
從所述縮減的文檔集中提取所述附加的肯定的和否定的文檔集;并且
使用所述訓練的初步模型和所述附加的肯定的和否定的文檔集生成定制的分類模型,其中生成所述定制的分類模型包括將所述確定的附加的肯定的和否定的文檔集應用于所述初步模型。
2.根據權利要求1所述的方法,其中訓練所述初步模型進一步包含應用最近相鄰鏈接算法。
3.根據權利要求1所述的方法,進一步包含:
在預定的測試文檔集上測試所述定制的分類模型,并向用戶呈現與所述測試相關的精度和查全率值。
4.根據權利要求1所述的方法,進一步包含:
提供所述定制的分類模型并且至少提供精度和查全率值。
5.根據權利要求1所述的方法,進一步包含:
使用分類規則、特征選擇、用戶反饋或它們的組合中的一個來調整所述初步模型和所述定制的分類模型;
生成調整的初步模型和調整的定制的分類模型;并且
提供所述調整的定制的分類模型并且至少提供更新的精度和查全率值。
6.根據權利要求5所述的方法,其中使用分類規則進行調整包含:
向用戶界面提供短語列表;并且
響應于包含或排除選項,將選擇的短語列表應用于所述文檔集,其中文檔包含指示所選主題的一個或多個來自所述短語列表中的短語。
7.根據權利要求5所述的方法,其中使用特征選擇進行調整包含向用戶界面提供特征列表,所述特征列表進一步包含表征與主題相關聯的文檔的短語列表,并且響應于包含或排除選項,將選擇的特征列表應用于所述文檔集。
8.根據權利要求5所述的方法,其中使用用戶反饋進行調整包含在用戶界面上提供可選對話框以指示對與主題相關的文檔進行的確認。
9.根據權利要求7所述的方法,進一步包含基于排名來加權所述特征列表。
10.根據權利要求5所述的方法,進一步包含發布所述調整的定制的分類模型。
11.根據權利要求1所述的方法,進一步包含:
使用所述肯定標記的文檔集和所述否定的文檔集驗證所述主題集。
12.根據權利要求11所述的方法,進一步包含通過用戶界面確定主題具有足夠用于驗證的文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金融及風險組織有限公司,未經金融及風險組織有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780006568.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多模態感測表面
- 下一篇:顯示裝置以及顯示控制方法





