[發明專利]文本分類參數生成器和使用所生成參數的文本分類器無效
| 申請號: | 01145408.3 | 申請日: | 2001-12-28 |
| 公開(公告)號: | CN1363899A | 公開(公告)日: | 2002-08-14 |
| 發明(設計)人: | 福重貴雄;菅野祐司;飯冢泰樹;玉利公一 | 申請(專利權)人: | 松下電器產業株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/21 |
| 代理公司: | 上海專利商標事務所 | 代理人: | 趙國華 |
| 地址: | 日本國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 參數 生成器 使用 生成 | ||
1.一種參數集生成系統,用于確定給定文檔是否屬于多個預定類別中指定的一個類別,其特征在于,該系統包括:
文檔集,每個文檔具有識別符(ID);
包含每個文檔記錄的文檔數據集,所述記錄包含所述文檔的文檔ID以及在預定向量空間中表示所述文檔特征的特征向量;
包含每個類別記錄的類別數據集,所述記錄包含所述類別的類別ID、類別名稱以及所述參數集,所述參數包括在所述預定向量空間中表示所述類別特征的基準向量以及所述類別的閾值;
用于通過用文檔的所述特征向量、所述基準向量以及與所述指定類別相關聯的所述閾值,對每個文檔計算隸屬分數的裝置,所述隸屬分數表示文檔是否屬于所述指定類別;
支持操作員輸入用于選擇文檔的各種命令參數、用于對所述選擇文檔評估所計算的隸屬分數的裝置;
根據所述命令參數其中一個命令參數的輸入,向所述操作員可視地顯示對于文檔的所述選擇有用的信息的裝置;
用于顯示所選擇文檔以及允許所述操作員評估每個顯示的所選擇文檔的所述隸屬分數,即對此設定一經過評估的隸屬分數的評估裝置;
用于若對于每個所述預定類別的每個文檔存在所述經過評估的隸屬分數便存儲所述經過評估的隸屬分數的裝置;以及
用于通過利用所述存儲裝置中各個文檔若有的所述經評估的隸屬分數來更新所述指定類別的所述基準向量的裝置,所述經計算的文檔隸屬分數未就所述指定類別以及所述文檔數據集中包含的特征向量進行過評估。
2.如權利要求1所述的系統,其特征在于,用于計算隸屬分數的所述裝置包括:
用于計算每個文檔的所述特征向量和所述指定類別的所述基準向量之間距離的裝置;以及
用于根據所述所計算距離和所述閾值計算所述隸屬分數的裝置。
3.如權利要求2所述的系統,其特征在于,所述閾值由所述距離的一可能值、所述距離的標準偏差的函數、按所述距離的升序排列的所述文檔集中第一次出現的文檔號以及屬于所述類別的文檔占全部文檔的比值給出,所述比值包括百分數。
4.如權利要求2所述的系統,其特征在于,用于支持操作員的所述裝置包括:
用于指定預定選擇準則其中一個的裝置;以及
用于對所述所指定選擇準則指定范圍的裝置。
5.如權利要求4所述的系統,其特征在于,所述用于指定一個選擇準則的裝置包括:用于指定所述距離其中一個距離、按所述距離順序排列的文檔列表中一位置以及所述特征向量的分量中所希望的一個分量的裝置。
6.如權利要求4所述的系統,其特征在于,所述用于指定范圍的裝置包括:用于指定以所述閾值為中心的文檔號中所希望的一個文檔號、兩個邊界值和基于圖表的規格選項的裝置。
7.如權利要求5所述的系統,其特征在于,所述用于支持操作員的裝置包括:用于指定本該用于所述對所述距離指定范圍的行值和所述行值偏差其中一個或所述特征向量的分量中所述所希望的一個分量的裝置。
8.如權利要求1所述的系統,其特征在于,所述用于支持操作員的裝置包括:用于對未經評估的文檔、所有文檔以及經評估的文檔中指定某一集合只應執行對所述選擇文檔的操作的裝置。
9.如權利要求6所述的系統,其特征在于,所述用于可視地顯示信息的裝置包括:響應對所述基于圖表的說明選項的選擇、用于顯示文檔分布圖表用于使操作員能夠交互指定其域按所述指定的選擇準則定義的所述圖表范圍的裝置。
10.如權利要求9所述的系統,其特征在于,所述用于顯示文檔分布圖表的裝置包括:
用于對表示所述范圍的指示符進行顯示和定位的裝置;
用于顯示并輸入確定所述范圍的數字值的裝置;以及
用于使所述指示符和數字值的位置互鎖的裝置。
11.如權利要求9所述的系統,其特征在于,所述用于顯示文檔分布圖表的裝置包括:用于顯示其域按所述距離定義的所述文檔分布圖表的裝置。
12.如權利要求9所述的系統,其特征在于,所述用于顯示文檔分布圖表的裝置包括:
用于顯示其定義域按所述特征向量的分量其中一個分量定義的所述文檔分布圖表的裝置;以及
用于顯示指定所述其中一個分量的裝置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于松下電器產業株式會社,未經松下電器產業株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/01145408.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:身體治療產品
- 下一篇:具有存儲器接口的CMOS傳感器陣列





