[發(fā)明專利]中文文件自動分類法無效
| 申請?zhí)枺?/td> | 00136723.4 | 申請日: | 2000-12-21 |
| 公開(公告)號: | CN1360253A | 公開(公告)日: | 2002-07-24 |
| 發(fā)明(設計)人: | 楊立偉 | 申請(專利權)人: | 意藍科技股份有限公司 |
| 主分類號: | G06F7/00 | 分類號: | G06F7/00 |
| 代理公司: | 北京紀凱知識產權代理有限公司 | 代理人: | 程偉 |
| 地址: | 中國*** | 國省代碼: | 臺灣;71 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 文件 自動 分類法 | ||
1.一種中文文件自動分類法,其特征是:其是包含:
(1)先將各篇待分類文件利用斷詞法進行斷詞處理;
(2)將斷詞處理所得的所有詞匯置于詞匯總表中;
(3)再將詞匯總表中的每一個詞匯進行特征鑒別步驟處理,以得詞匯總表中的每個詞匯在各篇待分類文件的特征值;
(4)將詞匯總表中的所有詞匯在單一篇待分類文件中的特征值,進行特征值組合處理,求得該篇待分類文件的特征向量;
(5)然后將各篇待分類文件的特征向量進行文件相似性判別步驟處理,而得各篇待分類文件與其它篇待分類文件的相似系數;
(6)最后將各篇待分類文件依其相似系數的大小進行分類,將相似系數大的數篇待分類文件結合成同一類別,完成文件分類。
2.如權利要求1所述的中文文件自動分類法,其特征是:該斷詞法為長詞優(yōu)先斷詞法,其是利用主辭典對應待分類文件中的所有文字,優(yōu)先找出符合主辭典中最長的詞匯。
3.如權利要求1所述的中文文件自動分類法,其特征是:其中該特征鑒別步驟是包括有:
(1)計算詞匯總表中的每一個詞匯在各篇待分類文件中出現的次數,該次數值為詞匯頻率;
(2)計算詞匯總表中的每一個詞匯在所有待分類文件中出現的篇數,該篇數值的倒數為詞匯散布率;
(3)再將詞匯頻率與詞匯散布率進行加權運算,求得特征值。
4.如權利要求1所述的中文文件自動分類法,其特征是:其中該相似性判別步驟是為將各篇待分類文件所得的特征向量與其它待分類文件的特征向量相乘積,再除以各篇待分類文件的特征向量與其它待分類文件的特征向量的絕對值平均數,求得相似系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于意藍科技股份有限公司,未經意藍科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/00136723.4/1.html,轉載請聲明來源鉆瓜專利網。





