[發(fā)明專利]文檔處理方法和裝置在審
| 申請?zhí)枺?/td> | 201210299975.X | 申請日: | 2012-08-21 |
| 公開(公告)號: | CN103631789A | 公開(公告)日: | 2014-03-12 |
| 發(fā)明(設(shè)計)人: | 楊宇航;夏迎炬;于浩 | 申請(專利權(quán))人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 杜誠;李春暉 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 處理 方法 裝置 | ||
1.一種文檔處理方法,包括:
從多個文檔中提取詞匯,并且針對每個文檔,計算所述詞匯的術(shù)語度并根據(jù)所述術(shù)語度確定術(shù)語;
對所述多個文檔進(jìn)行聚類,其中基于針對每個文檔類最近確定的術(shù)語及其術(shù)語度來確定文檔類間的相似度;
基于最近的聚類結(jié)果重新計算所述詞匯對于相應(yīng)文檔類的術(shù)語度,并針對每個文檔類重新確定術(shù)語;以及
重復(fù)進(jìn)行聚類和重新確定術(shù)語的過程,直到滿足預(yù)定截止條件為止。
2.根據(jù)權(quán)利要求1所述的方法,其中,提取詞匯包括:通過從所述多個文檔的每個句子中去除停用詞來提取所述詞匯。
3.根據(jù)權(quán)利要求1所述的方法,其中,
根據(jù)公式或者其數(shù)學(xué)變換形式計算所述術(shù)語度TFICF(wi),其中,TF(wi)表示詞匯wi在相應(yīng)文檔類中的詞頻、|C|表示文檔類的數(shù)量、CF(wi)表示包含詞匯wi的文檔類的數(shù)量。
4.根據(jù)權(quán)利要求1所述的方法,其中,在每次迭代中,通過將文檔類中相似度最高的兩個合并來進(jìn)行所述聚類。
5.根據(jù)權(quán)利要求1至4中任一項所述的方法,其中,重新確定術(shù)語包括:根據(jù)先前迭代中計算出的術(shù)語度的加權(quán)和確定相應(yīng)詞匯的分值,并據(jù)所述分值確定術(shù)語。
6.根據(jù)權(quán)利要求5所述的方法,其中,在所述加權(quán)和中,術(shù)語度的權(quán)重隨著迭代次數(shù)的增大而增大。
7.一種文檔處理裝置,包括:
術(shù)語確定部分,被配置為從多個文檔中提取詞匯,并且針對每個文檔,計算所述詞匯的術(shù)語度并根據(jù)所述術(shù)語度確定術(shù)語;
文檔聚類部分,被配置為對所述多個文檔進(jìn)行聚類,其中基于針對每個文檔類最近確定的術(shù)語及其術(shù)語度確定文檔類間的相似度;以及
術(shù)語更新部分,被配置為基于最近的聚類結(jié)果重新計算所述詞匯對于相應(yīng)文檔類的術(shù)語度,并針對每個文檔類重新確定術(shù)語。
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述術(shù)語確定部分被配置為通過從所述多個文檔的每個句子中去除停用詞來提取所述詞匯。
9.根據(jù)權(quán)利要求7所述的裝置,其中,所述術(shù)語更新部分被配置為:
根據(jù)公式或者其數(shù)學(xué)變換形式計算所述術(shù)語度TFICF(wi),其中,TF(wi)表示詞匯wi在相應(yīng)文檔類中的詞頻、|C|表示文檔類的數(shù)量、CF(wi)表示包含詞匯wi的文檔類的數(shù)量。
10.根據(jù)權(quán)利要求7至9中任一項所述的裝置,其中所述術(shù)語更新部分被配置為:根據(jù)先前迭代中計算出的術(shù)語度的加權(quán)和確定相應(yīng)詞匯的分值,并據(jù)所述分值確定術(shù)語。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210299975.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





