[發(fā)明專利]中文文件自動(dòng)分類法無(wú)效

申請(qǐng)?zhí)枺?/td>	00136723.4	申請(qǐng)日：	2000-12-21
公開（公告）號(hào)：	CN1360253A	公開（公告）日：	2002-07-24
發(fā)明（設(shè)計(jì)）人：	楊立偉	申請(qǐng)（專利權(quán)）人：	意藍(lán)科技股份有限公司
主分類號(hào)：	G06F7/00	分類號(hào)：	G06F7/00
代理公司：	北京紀(jì)凱知識(shí)產(chǎn)權(quán)代理有限公司	代理人：	程偉
地址：	中國(guó)***	國(guó)省代碼：	臺(tái)灣;71
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	中文文件自動(dòng) 分類法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書】：

本發(fā)明是一種中文分類法，尤指一種中文文件自動(dòng)分類法。

隨著電腦的日漸普及，有越來(lái)越多的中文電子化文件。然而眾多的文件是很不易管理的，需要將文件依其內(nèi)容做分類，以方便管理。將眾多的文件依其文件內(nèi)容的不同，將各文件加以歸類，或放置于不同的檔案目錄下，以達(dá)成文件分類的目的。

日前一般使用來(lái)做文件分類的方法，主要為「人工獲取關(guān)鍵詞法」。請(qǐng)參閱圖1所示，其是為現(xiàn)有「人工獲取關(guān)鍵詞法」的流程圖，該「人工獲取關(guān)鍵詞法」是先利用人類對(duì)于每篇待分類文件1’的文件內(nèi)容進(jìn)行了解后，然后以人工的方式選取數(shù)個(gè)足以代表該篇待分類文件1’內(nèi)容的詞匯、做為該篇待分類文件1’的關(guān)鍵詞2’。然后在進(jìn)行待分類文件1’分類之時(shí)，將具有相同關(guān)鍵詞2’的文件歸為同一類。

上述的「人工獲取關(guān)鍵詞法」是利用人工來(lái)選取待分類文件1’的關(guān)鍵詞2’，然而利用人工處理文件分類時(shí)會(huì)有三大問題。第一個(gè)問題是「效率問題」，因?yàn)槲募年P(guān)鍵詞必須利用人類對(duì)于文件內(nèi)容的理解后加以判斷，始能決定那些文件的關(guān)鍵詞為何。此一人類的「理解-判斷」過程非常地耗時(shí)耗力，必需使用大量的人力，付出高昂的時(shí)間與成本，才能夠處理越來(lái)越多的中文電子化文件。

利用人工處理文件分類時(shí)的第二個(gè)問題是「標(biāo)準(zhǔn)性問題」。因?yàn)槲募年P(guān)鍵詞選取過程必需依賴人類的理解與判斷，這是一個(gè)牽涉人類主觀意見的過程。同一群文件的分類結(jié)果可能會(huì)因人而異，因?yàn)槊總€(gè)人對(duì)于文件內(nèi)容的主題與分類的看法都有不同，而導(dǎo)致每個(gè)人所選取的關(guān)鍵詞不盡相同，所以會(huì)欠缺一致性的分類標(biāo)準(zhǔn)，這是以人工處理文件分類時(shí)的最大問題。例如將一群內(nèi)容皆是政治新聞的中文文件以人工進(jìn)行分類，某個(gè)人經(jīng)過對(duì)這群文件內(nèi)容的了解所做出的判斷，可能將這群內(nèi)容皆是政治新聞的中文文件的關(guān)鍵詞選取為：「臺(tái)灣」及「美國(guó)」；然而另外一個(gè)人可能會(huì)將這一群內(nèi)容皆是政治新聞的中文文件的關(guān)鍵詞選取為：「李登輝」以及「克林頓」。

利用人工處理文件分類時(shí)的第三個(gè)問題是「一致性問題」。即使是同一個(gè)人針對(duì)同一篇中文文件的文件內(nèi)容進(jìn)行理解與判斷，也會(huì)因?yàn)?!-- SIPO -->個(gè)人記憶、經(jīng)驗(yàn)的改變，以及外界環(huán)境的變遷，而有不同的理解與判斷。例如將一篇內(nèi)容屬于政治新聞的中文文件交由同一人進(jìn)行分類，可能第一次該篇中文文件的關(guān)鍵詞會(huì)被選取為「環(huán)境保育」；同一篇內(nèi)容屬于政治新聞的中文文件交由同一人重做一次關(guān)鍵詞的選取，然而該篇中文文件的關(guān)鍵詞卻可能會(huì)被選取為「核四電廠」。同一篇中文文件交由同一人進(jìn)行關(guān)鍵詞選取，但兩次選取的給果卻可能不相同，這就是「一致性問題」。

只要是通過人工處埋中文文件的分類，即使是聘請(qǐng)大量的專業(yè)人員來(lái)進(jìn)行文件分類的工作，也都不可避免會(huì)有「效率問題」、「準(zhǔn)確性問題」與「一致性問題」。因?yàn)槿祟愐獙?duì)于中文文件的文件內(nèi)容有某一程度的了解后，才有可能將該份文件的文件內(nèi)容摘要成數(shù)個(gè)具有代表性的關(guān)鍵詞，這是一個(gè)需時(shí)甚久的步驟，因此具有「效率問題」。除此之外，對(duì)于同一篇中文文件的文件內(nèi)容，可能不同的人會(huì)獲取出數(shù)個(gè)不同的關(guān)鍵詞，因?yàn)槊總€(gè)人所認(rèn)為足以代表該篇中文文件的文件內(nèi)容的詞匯皆有不同，這也就是「準(zhǔn)確性問題」。而同一篇中文文件的文件內(nèi)容交由同一個(gè)人來(lái)獲取關(guān)鍵詞，也有可能會(huì)每次都有所不同，這就是「一致性問題」。

本發(fā)明的目的是提出一種中文文件自動(dòng)分類法，本發(fā)明完全不需要人工參與，因此可以解決現(xiàn)有的「人工獲取關(guān)鍵詞法」以人工分類所帶來(lái)的「效率問題」、「準(zhǔn)確性問通」與「一致性問題」。

本發(fā)明的目的可以通過以下措施來(lái)達(dá)到：

一種中文文件自動(dòng)分類法，其是包含：

(1)先將各篇待分類文件利用斷詞法進(jìn)行斷詞處理；

(2)將斷詞處理所得的所有詞匯置于詞匯總表中；

(3)再將詞匯總表中的每一個(gè)詞匯進(jìn)行特征鑒別步驟處理，以得詞匯總表中的每個(gè)詞匯在各篇待分類文件的特征值；

(4)將詞匯總表中的所有詞匯在單一篇待分類文件中的特征值，進(jìn)行特征值組合處理，求得該篇待分類文件的特征向量；

(5)然后將各篇待分類文件的特征向量進(jìn)行文件相似性判別步驟處理，而得各篇待分類文件與其它篇待分類文件的相似系數(shù)；

(6)最后將各篇待分類文件依其相似系數(shù)的大小進(jìn)行分類，將相似系數(shù)大的數(shù)篇待分類文件結(jié)合成同一類別，完成文件分類。

該斷詞法為長(zhǎng)詞優(yōu)先斷詞法，其是利用主辭典對(duì)應(yīng)待分類文件中的所有文字，優(yōu)先找出符合主辭典中最長(zhǎng)的詞匯。

其中該特征鑒別步驟是包括有：

(1)計(jì)算詞匯總表中的每一個(gè)詞匯在各篇待分類文件中出現(xiàn)的次數(shù)，該次數(shù)值為詞匯頻率；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于意藍(lán)科技股份有限公司，未經(jīng)意藍(lán)科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/00136723.4/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F7-00 通過待處理的數(shù)據(jù)的指令或內(nèi)容進(jìn)行運(yùn)算的數(shù)據(jù)處理的方法或裝置
G06F7-02 .比較數(shù)字值的
G06F7-06 .將單個(gè)記錄載體上的數(shù)據(jù)進(jìn)行排序、選擇、合并或比較的裝置
G06F7-22 .用于排序或合并在連續(xù)記錄載體
G06F7-38 .只利用數(shù)制表示，例如利用二進(jìn)制、三進(jìn)制、十進(jìn)制表示來(lái)完成計(jì)算的方法或裝置
G06F7-58 .隨機(jī)數(shù)或偽隨機(jī)數(shù)發(fā)生器

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】