[發(fā)明專利]中文文件自動(dòng)分類法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 00136723.4 | 申請(qǐng)日: | 2000-12-21 |
| 公開(公告)號(hào): | CN1360253A | 公開(公告)日: | 2002-07-24 |
| 發(fā)明(設(shè)計(jì))人: | 楊立偉 | 申請(qǐng)(專利權(quán))人: | 意藍(lán)科技股份有限公司 |
| 主分類號(hào): | G06F7/00 | 分類號(hào): | G06F7/00 |
| 代理公司: | 北京紀(jì)凱知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 程偉 |
| 地址: | 中國(guó)*** | 國(guó)省代碼: | 臺(tái)灣;71 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 文件 自動(dòng) 分類法 | ||
本發(fā)明是一種中文分類法,尤指一種中文文件自動(dòng)分類法。
隨著電腦的日漸普及,有越來(lái)越多的中文電子化文件。然而眾多的文件是很不易管理的,需要將文件依其內(nèi)容做分類,以方便管理。將眾多的文件依其文件內(nèi)容的不同,將各文件加以歸類,或放置于不同的檔案目錄下,以達(dá)成文件分類的目的。
日前一般使用來(lái)做文件分類的方法,主要為「人工獲取關(guān)鍵詞法」。請(qǐng)參閱圖1所示,其是為現(xiàn)有「人工獲取關(guān)鍵詞法」的流程圖,該「人工獲取關(guān)鍵詞法」是先利用人類對(duì)于每篇待分類文件1’的文件內(nèi)容進(jìn)行了解后,然后以人工的方式選取數(shù)個(gè)足以代表該篇待分類文件1’內(nèi)容的詞匯、做為該篇待分類文件1’的關(guān)鍵詞2’。然后在進(jìn)行待分類文件1’分類之時(shí),將具有相同關(guān)鍵詞2’的文件歸為同一類。
上述的「人工獲取關(guān)鍵詞法」是利用人工來(lái)選取待分類文件1’的關(guān)鍵詞2’,然而利用人工處理文件分類時(shí)會(huì)有三大問題。第一個(gè)問題是「效率問題」,因?yàn)槲募年P(guān)鍵詞必須利用人類對(duì)于文件內(nèi)容的理解后加以判斷,始能決定那些文件的關(guān)鍵詞為何。此一人類的「理解-判斷」過程非常地耗時(shí)耗力,必需使用大量的人力,付出高昂的時(shí)間與成本,才能夠處理越來(lái)越多的中文電子化文件。
利用人工處理文件分類時(shí)的第二個(gè)問題是「標(biāo)準(zhǔn)性問題」。因?yàn)槲募年P(guān)鍵詞選取過程必需依賴人類的理解與判斷,這是一個(gè)牽涉人類主觀意見的過程。同一群文件的分類結(jié)果可能會(huì)因人而異,因?yàn)槊總€(gè)人對(duì)于文件內(nèi)容的主題與分類的看法都有不同,而導(dǎo)致每個(gè)人所選取的關(guān)鍵詞不盡相同,所以會(huì)欠缺一致性的分類標(biāo)準(zhǔn),這是以人工處理文件分類時(shí)的最大問題。例如將一群內(nèi)容皆是政治新聞的中文文件以人工進(jìn)行分類,某個(gè)人經(jīng)過對(duì)這群文件內(nèi)容的了解所做出的判斷,可能將這群內(nèi)容皆是政治新聞的中文文件的關(guān)鍵詞選取為:「臺(tái)灣」及「美國(guó)」;然而另外一個(gè)人可能會(huì)將這一群內(nèi)容皆是政治新聞的中文文件的關(guān)鍵詞選取為:「李登輝」以及「克林頓」。
利用人工處理文件分類時(shí)的第三個(gè)問題是「一致性問題」。即使是同一個(gè)人針對(duì)同一篇中文文件的文件內(nèi)容進(jìn)行理解與判斷,也會(huì)因?yàn)?!-- SIPO
只要是通過人工處埋中文文件的分類,即使是聘請(qǐng)大量的專業(yè)人員來(lái)進(jìn)行文件分類的工作,也都不可避免會(huì)有「效率問題」、「準(zhǔn)確性問題」與「一致性問題」。因?yàn)槿祟愐獙?duì)于中文文件的文件內(nèi)容有某一程度的了解后,才有可能將該份文件的文件內(nèi)容摘要成數(shù)個(gè)具有代表性的關(guān)鍵詞,這是一個(gè)需時(shí)甚久的步驟,因此具有「效率問題」。除此之外,對(duì)于同一篇中文文件的文件內(nèi)容,可能不同的人會(huì)獲取出數(shù)個(gè)不同的關(guān)鍵詞,因?yàn)槊總€(gè)人所認(rèn)為足以代表該篇中文文件的文件內(nèi)容的詞匯皆有不同,這也就是「準(zhǔn)確性問題」。而同一篇中文文件的文件內(nèi)容交由同一個(gè)人來(lái)獲取關(guān)鍵詞,也有可能會(huì)每次都有所不同,這就是「一致性問題」。
本發(fā)明的目的是提出一種中文文件自動(dòng)分類法,本發(fā)明完全不需要人工參與,因此可以解決現(xiàn)有的「人工獲取關(guān)鍵詞法」以人工分類所帶來(lái)的「效率問題」、「準(zhǔn)確性問通」與「一致性問題」。
本發(fā)明的目的可以通過以下措施來(lái)達(dá)到:
一種中文文件自動(dòng)分類法,其是包含:
(1)先將各篇待分類文件利用斷詞法進(jìn)行斷詞處理;
(2)將斷詞處理所得的所有詞匯置于詞匯總表中;
(3)再將詞匯總表中的每一個(gè)詞匯進(jìn)行特征鑒別步驟處理,以得詞匯總表中的每個(gè)詞匯在各篇待分類文件的特征值;
(4)將詞匯總表中的所有詞匯在單一篇待分類文件中的特征值,進(jìn)行特征值組合處理,求得該篇待分類文件的特征向量;
(5)然后將各篇待分類文件的特征向量進(jìn)行文件相似性判別步驟處理,而得各篇待分類文件與其它篇待分類文件的相似系數(shù);
(6)最后將各篇待分類文件依其相似系數(shù)的大小進(jìn)行分類,將相似系數(shù)大的數(shù)篇待分類文件結(jié)合成同一類別,完成文件分類。
該斷詞法為長(zhǎng)詞優(yōu)先斷詞法,其是利用主辭典對(duì)應(yīng)待分類文件中的所有文字,優(yōu)先找出符合主辭典中最長(zhǎng)的詞匯。
其中該特征鑒別步驟是包括有:
(1)計(jì)算詞匯總表中的每一個(gè)詞匯在各篇待分類文件中出現(xiàn)的次數(shù),該次數(shù)值為詞匯頻率;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于意藍(lán)科技股份有限公司,未經(jīng)意藍(lán)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/00136723.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F7-00 通過待處理的數(shù)據(jù)的指令或內(nèi)容進(jìn)行運(yùn)算的數(shù)據(jù)處理的方法或裝置
G06F7-02 .比較數(shù)字值的
G06F7-06 .將單個(gè)記錄載體上的數(shù)據(jù)進(jìn)行排序、選擇、合并或比較的裝置
G06F7-22 .用于排序或合并在連續(xù)記錄載體
G06F7-38 .只利用數(shù)制表示,例如利用二進(jìn)制、三進(jìn)制、十進(jìn)制表示來(lái)完成計(jì)算的方法或裝置
G06F7-58 .隨機(jī)數(shù)或偽隨機(jī)數(shù)發(fā)生器





