[發明專利]文檔分類裝置及文檔分類方法有效
| 申請號: | 201380042988.1 | 申請日: | 2013-08-22 |
| 公開(公告)號: | CN104584005B | 公開(公告)日: | 2018-01-05 |
| 發明(設計)人: | 后藤和之;祖國威;宮部泰成;巖崎秀樹 | 申請(專利權)人: | 株式會社東芝;東芝解決方案株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 永新專利商標代理有限公司72002 | 代理人: | 戚宏梅,楊謙 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 分類 裝置 方法 | ||
1.一種文檔分類裝置,其特征在于,
具備:
文檔存儲部(1),存儲語言不同的多個文檔;
文檔間對應關系存儲部(5),存儲所述文檔存儲部(1)所存儲的、語言不同的文檔間的對應關系;
類目存儲部(3),存儲用于對所述文檔存儲部(1)所存儲的多個文檔進行分類的類目;
單詞抽取部(2),從所述文檔存儲部(1)所存儲的文檔抽取單詞;
單詞間對應關系抽取部(6),使用所述文檔間對應關系存儲部(5)所存儲的對應關系,基于由所述單詞抽取部(2)抽取到的單詞在具有所述對應關系的文檔間同現地出現的頻率,抽取該單詞間的對應關系;
類目生成部(7),基于所述文檔存儲部(1)所存儲的語言相同的文檔間的、由所述單詞抽取部(2)抽取到的單詞出現的頻率的相似性,對用該語言記述的多個文檔進行聚類,由此,按照每個語言生成所述類目;
類目間對應關系抽取部(8),基于在被分類到由所述類目生成部(7)生成的每個語言的類目中的文檔中單詞出現的頻率、以及由所述單詞間對應關系抽取部(6)抽取到的對應關系,在被分類到某個類目中的文檔中出現的頻率較多的單詞、與在被分類到其他類目中的文檔中出現的頻率較多的之間,所述單詞間的對應關系存在得越多則視為該類目間的相似度越高,由此,抽取將語言不同的文檔進行了分類的類目間的對應關系。
2.如權利要求1所述的文檔分類裝置,其特征在于,
還具備:
類目特征詞抽取部(10),基于針對作為被分類到所述類目存儲部(3)所存儲的類目中的文檔的、用1個或者多個語言記述的1個或者多個文檔的、由所述單詞抽取部(2)抽取到的單詞出現的頻率,抽取該類目的特征詞;以及
類目特征詞變換部(11),基于由所述單詞間對應關系抽取部(6)抽取到的對應關系,將作為由所述類目特征詞抽取部(10)抽取到的特征詞的用第一語言記述的特征詞,變換為用第二語言記述的特征詞。
3.如權利要求1所述的文檔分類裝置,其特征在于,
還具備:
規則基準文檔分類部(12),以所述類目存儲部(3)所存儲的1個或者多個類目為對象,基于以將由所述單詞抽取部(2)抽取到的單詞當中的1個或者多個單詞出現的文檔分類到該類目中的方式進行規定的分類規則,決定用于對所述文檔存儲部(1)所存儲的文檔進行分類的類目;以及
分類規則變換部(13),基于由所述單詞間對應關系抽取部(6)抽取到的對應關系,將所述規則基準文檔分類部(12)所使用的各類目的分類規則中的用第一語言記述的單詞變換為用第二語言記述的單詞,由此對所述分類規則進行變換。
4.如權利要求1所述的文檔分類裝置,其特征在于,
具備:
辭典存儲部(14),存儲用于規定所述類目生成部(7)對單詞的使用方法的辭典;
辭典設定部(15),對所述辭典,設定重視的重要詞、忽略的不需要詞、視為相同的同義詞的某個或者多個,作為辭典詞;以及
辭典變換部(16),基于由所述單詞間對應關系抽取部(6)抽取到的對應關系,將作為在所述辭典中設定的辭典詞的用某個語言記述的辭典詞變換為用其他語言記述的辭典詞。
5.如權利要求2所述的文檔分類裝置,其特征在于,
具備:
辭典存儲部(14),存儲用于規定所述類目特征詞抽取部(10)對單詞的使用方法的辭典;
辭典設定部(15),對所述辭典,設定在所述文檔的分類中重視的重要詞、在所述文檔的分類中忽略的不需要詞、在所述文檔的分類中視為相同的同義詞的某個或者多個,作為辭典詞;以及
辭典變換部(16),基于由所述單詞間對應關系抽取部(6)抽取到的對應關系,將所述辭典中設定的用某個語言記述的辭典詞變換為用其他語言記述的辭典詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝;東芝解決方案株式會社,未經株式會社東芝;東芝解決方案株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380042988.1/1.html,轉載請聲明來源鉆瓜專利網。





