[發明專利]文檔分類裝置及文檔分類方法有效
| 申請號: | 201380042988.1 | 申請日: | 2013-08-22 |
| 公開(公告)號: | CN104584005B | 公開(公告)日: | 2018-01-05 |
| 發明(設計)人: | 后藤和之;祖國威;宮部泰成;巖崎秀樹 | 申請(專利權)人: | 株式會社東芝;東芝解決方案株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 永新專利商標代理有限公司72002 | 代理人: | 戚宏梅,楊謙 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 分類 裝置 方法 | ||
技術領域
本發明的實施方式涉及用于將電子化的大量文檔根據其內容來進行分類的文檔分類裝置及文檔分類方法。
背景技術
近年來,隨著計算機的高性能化、存儲介質的大容量化及計算機網絡的普及等,使得使用計算機系統來大量地收集、存儲并利用電子化的文檔的信息成為了可能。作為用于將這樣的大量文檔整理成容易利用的形式的技術,期待有文檔的自動分類及聚類等技術。
特別是如今企業等的活動的迅速國際化不斷進展。在該狀況下,需要高效地分類不僅用1個語言而是用如日語、英語、中文這樣的多個自然語言來記述的文檔。
例如有想要將在多個國家申請的專利文檔無關于語言的不同而基于內容的相似性進行分類來分析申請趨勢的需求。此外,例如還有想要在各國的接待中心受理針對在多個國家銷售的產品的來自顧客的提問及投訴等信息并對該信息進行分類·分析的需求。此外,例如還有想要收集并分析在因特網上公開的用各種語言來記載的新聞報道、對產品·服務等的評論·意見等信息的需求。
作為將語言不同的的文檔集合基于內容的相似性來跨語言地分類的方法之一,有使用機械翻譯技術的方法。這是如下的方法:翻譯用母語以外的語言(例如在日語為母語的情況下,為英語或中文)記述的文檔,從而能夠將全部文檔作為1個語言(即母語)的文檔來處理,在此基礎上,進行自動分類或聚類等。
然而,該方法中,機械翻譯的精度會影響到自動分類等處理的精度,存在如由于翻譯錯誤等原因而導致文檔無法被恰當地分類這樣的、精度的問題。此外,一般來講,機械翻譯的處理用的計算成本很大,因此,在以大量文檔為對象的情況下存在性能方面的問題。
進而,在多個用戶對文檔進行分類來利用的情況下,可以想到文檔的母語也互不相同,要預先設想到該點而將大量文檔翻譯成多個語言是很困難的。
作為將用多個語言記述的文檔集合跨語言地進行分類的方法,有使用對譯辭典(或稱作互譯辭典)的方法。在此對譯辭典是指,將用某個語言記述的單詞或語句等的表述與其他語言的相同意思的表述之間相互建立了對應的辭典或同義詞詞典(thesaurus)。以下,為了簡單起見,包括合成詞及短語等在內,僅記作單詞。
作為使用對譯辭典來實現跨語言分類的方法的例子,首先,在用多個語言記述的文檔集合當中,對用某個語言1記述的文檔的部分集合進行分類來制作類目。然后,將表示該各類目的特征的語言a的單詞,例如通過單詞向量的形式來求出。另一方面,關于另外的語言b的文檔,求出表示其特征的語言b的單詞向量。
在此,如果能夠將語言a的各類目的單詞向量的各維(換句話說語言a的單詞)與語言b的文檔的單詞向量的各維(換句話說語言b的單詞)使用對譯辭典建立對應的話,就能夠計算語言a的單詞向量與語言b的單詞向量的相似度。然后,基于該相似度,能夠將語言b的文檔在語言a的類目當中分類到恰當的類目中。
在使用這樣的對譯辭典的方法中,對譯辭典的質和量很重要。但是,要全部通過手動來制作的話需要勞力。于是,作為半自動地制作對譯辭典的方法,有如下方法:對用某個語言記述的單詞,基于在各語言的語料庫(corpus:收集了文例的數據庫)中的單詞的同現頻率和通用的對譯辭典,來求出用恰當的其他的語言記述的單詞,來作為其對譯。
該方法中,首先,作為用于制作對譯辭典的對象的單詞,例如需要指定專門用語等,該專門用語的用一個語言進行的表述是已知的而用與該表述對應的另一個語言進行的表述是未知的。然而,在對內容未知的文檔進行分類的情況下,無法預先設想是要對什么樣的單詞來制作對譯辭典。
因此,使用同現頻率和對譯辭典的方法不適于利用聚類等探索式的分類手法來對未知內容的文檔進行分類這樣的目的。此外,在上述的方法中,相對于半自動地制作的對譯辭典,還需要另外制作通用的對譯辭典。但是,根據作為對象的語言,有時無法預先充分地準備其通用的對譯辭典。
此外,例如,相對于英語的單詞“character”而言,日本的單詞有“性格”、“特性”、“人物”、“文字”等。因而,特別是在使用通用的對譯辭典的情況下,需要與作為分類的對象的文檔集合相對應地選擇恰當的對譯詞。
此外,有使用通過上述方法制作的對譯的同義詞詞典來對文檔自動分類的方法。在該方法中,在文檔未被分類到恰當的類目中的情況下,通過由用戶來修正與類目對應的同義詞詞典的語義,能夠應對分類的錯誤等。但是,該作業對于不習慣作為對象的語言的用戶來講,特別需要勞力。
先行技術文獻
專利文獻
專利文獻1:特開2001-331484號公報
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝;東芝解決方案株式會社,未經株式會社東芝;東芝解決方案株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380042988.1/2.html,轉載請聲明來源鉆瓜專利網。





