[發(fā)明專利]文件分類方法、文件分類裝置以及記錄介質(zhì)在審
| 申請?zhí)枺?/td> | 202110621773.1 | 申請日: | 2021-06-03 |
| 公開(公告)號: | CN113807381A | 公開(公告)日: | 2021-12-17 |
| 發(fā)明(設(shè)計)人: | 坂口彰洋;尾籠剛 | 申請(專利權(quán))人: | 松下知識產(chǎn)權(quán)經(jīng)營株式會社 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/284 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 柯瑞京 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文件 分類 方法 裝置 以及 記錄 介質(zhì) | ||
本公開提供一種文件分類方法、文件分類裝置以及記錄介質(zhì)。從作為分類對象的第1文件包含的第1文章信息中提取一個以上的第1特征詞,基于提取出的一個以上的第1特征詞,從包括多個預(yù)先包含第2文章信息且被賦予了預(yù)先分類的一個以上的類別的事例的數(shù)據(jù)庫中提取與第1文件類似的給定數(shù)量的第1事例,第2文章信息按照根據(jù)含義被預(yù)先分類的一個以上的項目的每個項目表示該項目的要點,從給定數(shù)量的第1事例各自的第2文章信息中,提取給定數(shù)量的第1事例各自的一個以上的第2特征詞,基于提取出的一個以上的第2特征詞,計算給定數(shù)量的第1事例各自與第1文件的一致度,將一致度最大的第1事例被賦予的一個以上的類別決定為第1文件的類別。
技術(shù)領(lǐng)域
本公開涉及文件分類方法、文件分類裝置以及記錄介質(zhì)。
背景技術(shù)
例如在專利文獻1中,公開了用于根據(jù)內(nèi)容而將電子化的大量的文件分類為類別的文件分類裝置等。在專利文獻1所公開的技術(shù)中,基于反復(fù)對類別分類對象的文件中的文章所包含的單詞的出現(xiàn)頻度以及共現(xiàn)關(guān)系進行分析來進行依存解析而獲得的可靠性分數(shù),鎖定并提取成為該文章的特征的短語。然后,通過使用成為該文章的特征的短語來生成該文章的類別,從而對該文章的類別進行分類。
在先技術(shù)文獻
專利文獻
專利文獻1:日本特開2014-41481號公報
發(fā)明內(nèi)容
本公開的一個方式涉及的文件分類方法是由計算機進行將文件分類為至少一個類別的處理的文件分類方法,該文件分類方法包括:從作為分類對象的第1文件所包含的第1文章信息中,提取一個以上的第1特征詞;基于提取出的所述一個以上的第1特征詞,從包括多個預(yù)先包含第2文章信息且被賦予了預(yù)先分類的一個以上的類別的事例的數(shù)據(jù)庫中,提取與所述第1文件類似的給定數(shù)量的第1事例,所述第2文章信息按照根據(jù)含義被預(yù)先分類的一個以上的項目的每個項目來表示該項目的要點;從所述給定數(shù)量的第1事例各自的第2文章信息中,提取所述給定數(shù)量的第1事例各自的一個以上的第2特征詞;基于提取出的所述一個以上的第2特征詞,計算所述給定數(shù)量的第1事例各自與所述第1文件的一致度;和將計算出的一致度之中一致度最大的第1事例被賦予的一個以上的類別決定為所述第1文件的類別,從而將所述第1文件分類為至少一個類別。
本公開的一個方式涉及的文件分類裝置是將文件分類為至少一個類別的文件分類裝置,具備處理器和存儲器,所述處理器使用記錄在所述存儲器中的程序,從作為分類對象的第1文件所包含的第1文章信息中,提取一個以上的第1特征詞,基于提取出的所述一個以上的第1特征詞,從包括多個預(yù)先包含第2文章信息且被賦予了預(yù)先分類的一個以上的類別的事例的數(shù)據(jù)庫中,提取與所述第1文件類似的給定數(shù)量的第1事例,所述第2文章信息按照根據(jù)含義被預(yù)先分類的一個以上的項目的每個項目來表示該項目的要點,從所述給定數(shù)量的第1事例各自的第2文章信息中,提取所述給定數(shù)量的第1事例各自的一個以上的第2特征詞,基于提取出的所述一個以上的第2特征詞,計算所述給定數(shù)量的第1事例各自與所述第1文件的一致度,將計算出的一致度之中一致度最大的第1事例被賦予的一個以上的類別決定為所述第1文件的類別,從而將所述第1文件分類為至少一個類別。
本公開的一個方式涉及的記錄介質(zhì)是記錄有用于使計算機執(zhí)行將文件分類為至少一個類別的文件分類方法的程序的計算機可讀取的記錄介質(zhì),所述程序用于使計算機執(zhí)行以下處理:從作為分類對象的第1文件所包含的第1文章信息中,提取一個以上的第1特征詞,基于提取出的所述一個以上的第1特征詞,從包括多個預(yù)先包含第2文章信息且被賦予了預(yù)先分類的一個以上的類別的事例的數(shù)據(jù)庫中,提取與所述第1文件類似的給定數(shù)量的第1事例,所述第2文章信息按照根據(jù)含義被預(yù)先分類的一個以上的項目的每個項目來表示該項目的要點,從所述給定數(shù)量的第1事例各自的第2文章信息中,提取所述給定數(shù)量的第1事例各自的一個以上的第2特征詞,基于提取出的所述一個以上的第2特征詞,計算所述給定數(shù)量的第1事例各自與所述第1文件的一致度,將計算出的一致度之中一致度最大的第1事例被賦予的一個以上的類別決定為所述第1文件的類別,從而將所述第1文件分類為至少一個類別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于松下知識產(chǎn)權(quán)經(jīng)營株式會社,未經(jīng)松下知識產(chǎn)權(quán)經(jīng)營株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110621773.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





