[發(fā)明專利]文檔分類系統(tǒng)、文檔分類方法及文檔分類程序無效
| 申請?zhí)枺?/td> | 201380011864.7 | 申請日: | 2013-02-28 |
| 公開(公告)號: | CN104160395A | 公開(公告)日: | 2014-11-19 |
| 發(fā)明(設(shè)計)人: | 守本正宏;白井喜勝;武田秀樹;蓮子和巳 | 申請(專利權(quán))人: | UBIC股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/18 |
| 代理公司: | 北京瑞盟知識產(chǎn)權(quán)代理有限公司 11300 | 代理人: | 劉昕 |
| 地址: | 日本國東京都港區(qū)港*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 分類 系統(tǒng) 方法 程序 | ||
1.一種文檔分類系統(tǒng),其獲取記錄在多個計算機(jī)或服務(wù)器中的數(shù)字信息,并對該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后進(jìn)行分類以易于在訴訟中使用,其特征在于,具有:
抽取部,其從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群;
文檔顯示部,其將所述抽取的文檔群顯示在畫面上;
分類符號接受部,其接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對所述顯示的文檔群賦予的分類符號;
選定部,其根據(jù)所述分類符號,按每個分類符號對所述抽取的文檔群進(jìn)行分類,解析并選定在該被分類的文檔群中共同出現(xiàn)的關(guān)鍵詞;
數(shù)據(jù)庫,其記錄所述被選定的關(guān)鍵詞;
搜索部,其從所述文檔信息中搜索記錄在所述數(shù)據(jù)庫中的關(guān)鍵詞;
得分計算部,其利用所述搜索部的搜索結(jié)果和所述選定部的解析結(jié)果,計算表示分類符號和文檔之間的關(guān)聯(lián)性的得分;以及
自動分類部,其根據(jù)所述得分的結(jié)果自動賦予分類符號。
2.根據(jù)權(quán)利要求1所述的文檔分類系統(tǒng),其特征在于,
所述得分計算部根據(jù)出現(xiàn)在所述文檔群中的所述關(guān)鍵詞和各關(guān)鍵詞所擁有的權(quán)重計算得分。
3.根據(jù)權(quán)利要求1或2中任意一項所述的文檔分類系統(tǒng),其特征在于,
所述權(quán)重根據(jù)擁有所述關(guān)鍵詞的、每個所述分類符號的傳遞信息量決定。
4.根據(jù)權(quán)利要求1~3中任意一項所述的文檔分類系統(tǒng),其特征在于,
所述抽取部具有從所述文檔信息中隨機(jī)采樣而抽取文檔群的功能。
5.根據(jù)權(quán)利要求1~4中任意一項所述的文檔判別系統(tǒng),其特征在于,
所述搜索部從由未被賦予所述分類符號的文檔構(gòu)成的文檔信息中搜索所述關(guān)鍵詞,
所述得分計算部利用所述搜索部的搜索結(jié)果和所述選定部的解析結(jié)果,計算表示分類符號和文檔之間關(guān)聯(lián)性的得分,
所述自動分類部具有抽取未由所述分類符號接受部接受到賦予所述分類符號的文檔,并對文檔信息自動賦予分類符號的功能。
6.根據(jù)權(quán)利要求1所述的文檔分類系統(tǒng),其特征在于,
所述數(shù)據(jù)庫還具有抽取并記錄與所述分類符號具有關(guān)聯(lián)性的關(guān)聯(lián)用語的功能,
所述搜索部還具有從所述文檔信息中搜索所述關(guān)聯(lián)用語的功能,
所述得分計算部還具有根據(jù)所述搜索部對所述關(guān)聯(lián)用語進(jìn)行搜索的結(jié)果計算得分的功能,
所述自動分類部還具有根據(jù)使用所述關(guān)聯(lián)用語計算的得分自動賦予分類符號的功能。
7.根據(jù)權(quán)利要求6所述的文檔分類系統(tǒng),其特征在于,
所述數(shù)據(jù)庫還具有事先記錄與所述分類符號有相關(guān)關(guān)系的關(guān)鍵詞的功能,
所述自動分類部還具有在對所述文檔群中包含與分類符號有相關(guān)關(guān)系的關(guān)鍵詞的文檔進(jìn)行搜索時,決定所述分類符號的功能。
8.根據(jù)權(quán)利要求6或7所述的文檔分類系統(tǒng),其特征在于,
還具有文檔排除部,其在所述文檔群中的文檔中,選定不包含由所述選定部選定的所述關(guān)鍵詞、所述關(guān)聯(lián)用語及與所述分類符號有相關(guān)關(guān)系的關(guān)鍵詞的文檔,并從所述自動分類部的分類對象中排除所述被選定的文檔。
9.根據(jù)權(quán)利要求6或7所述的文檔分類系統(tǒng),其特征在于,
還具有學(xué)習(xí)部,其根據(jù)所述選定部的分析結(jié)果和所述得分計算部計算的得分,對由所述選定部選定的關(guān)鍵詞、記錄在所述數(shù)據(jù)庫中的與分類符號有相關(guān)關(guān)系的關(guān)鍵詞及關(guān)聯(lián)用語進(jìn)行增減。
10.一種文檔分類方法,其應(yīng)用于獲取記錄在多個計算機(jī)或服務(wù)器中記錄的數(shù)字信息,并對該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后分類以易于在訴訟中使用的文檔分類系統(tǒng),其特征在于,
從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群,
將所述抽取的文檔群顯示在畫面上,
接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對所述顯示的文檔群賦予的分類符號,
根據(jù)所述分類符號,按每個分類符號對所述抽取的文檔群進(jìn)行分類,解析并選定該被分類的文檔群中共同出現(xiàn)的關(guān)鍵詞,
記錄所述被選定的關(guān)鍵詞,
從所述文檔信息搜索所述被記錄的關(guān)鍵詞,
利用所述搜索結(jié)果和所述解析結(jié)果,計算表示分類符號和文檔之間的關(guān)聯(lián)性的得分,
根據(jù)所述得分的結(jié)果自動賦予分類符號。
11.一種文檔分類程序,其應(yīng)用于獲取記錄在多個計算機(jī)或服務(wù)器中記錄的數(shù)字信息,并對該獲取的數(shù)字信息中所包含的文檔信息進(jìn)行分析,然后分類以易于在訴訟中使用的文檔分類系統(tǒng),其特征在于,
使計算機(jī)中實(shí)現(xiàn)如下功能,
從所述文檔信息中抽取作為數(shù)據(jù)組而包含規(guī)定數(shù)量文檔的文檔群,
將所述抽取的文檔群顯示在畫面上,
接受用戶根據(jù)與所述訴訟之間的關(guān)聯(lián)性對所述顯示的文檔群賦予的分類符號,
根據(jù)所述分類符號,按每個分類符號對所述抽取的文檔群進(jìn)行分類,解析并選定該被分類的文檔群中共同出現(xiàn)的關(guān)鍵詞,
記錄所述被選定的關(guān)鍵詞,
從所述文檔信息搜索所述被記錄的關(guān)鍵詞,
利用所述搜索結(jié)果和所述解析結(jié)果,計算表示分類符號和文檔之間的關(guān)聯(lián)性的得分,
根據(jù)所述得分的結(jié)果自動賦予分類符號。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于UBIC股份有限公司,未經(jīng)UBIC股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380011864.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





