[發(fā)明專利]對(duì)文檔進(jìn)行分類的方法、電子設(shè)備和計(jì)算機(jī)程序產(chǎn)品有效
| 申請(qǐng)?zhí)枺?/td> | 201810362310.6 | 申請(qǐng)日: | 2018-04-20 |
| 公開(公告)號(hào): | CN110390094B | 公開(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計(jì))人: | 劉威揚(yáng);滕康;劉原一;張?jiān)鼋?/a>;張之劍 | 申請(qǐng)(專利權(quán))人: | 伊姆西IP控股有限責(zé)任公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/216;G06F40/30 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 王茂華;李春輝 |
| 地址: | 美國馬*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 進(jìn)行 分類 方法 電子設(shè)備 計(jì)算機(jī) 程序 產(chǎn)品 | ||
1.一種對(duì)文檔進(jìn)行分類的方法,包括:
確定與文檔類別相關(guān)聯(lián)的一個(gè)或多個(gè)關(guān)鍵詞和對(duì)應(yīng)權(quán)重;
至少基于所述一個(gè)或多個(gè)關(guān)鍵詞在所述文檔的字段中出現(xiàn)的頻率以及所述權(quán)重,確定所述文檔相對(duì)于所述一個(gè)或多個(gè)關(guān)鍵詞的得分;
響應(yīng)于所述文檔的所述得分高于閾值,確定所述文檔屬于所述文檔類別,其中所述文檔類別選自多個(gè)文檔類別;
確定所述文檔的與所述多個(gè)文檔類別對(duì)應(yīng)的多個(gè)得分;
基于所述多個(gè)得分中的最大得分與前閾值的比較,確定后閾值;
標(biāo)準(zhǔn)化所述多個(gè)得分;以及
響應(yīng)于所述文檔的標(biāo)準(zhǔn)化后的得分大于所述后閾值,確定所述文檔屬于與所述標(biāo)準(zhǔn)化后的得分對(duì)應(yīng)的文檔類別。
2.根據(jù)權(quán)利要求1所述的方法,其中所述一個(gè)或多個(gè)關(guān)鍵詞和所述權(quán)重是通過神經(jīng)網(wǎng)絡(luò)基于文本語料庫訓(xùn)練得到的。
3.根據(jù)權(quán)利要求1所述的方法,其中所述文檔的所述字段包括標(biāo)題字段和內(nèi)容字段中的至少一個(gè)。
4.根據(jù)權(quán)利要求1所述的方法,其中所述文檔的所述字段僅包括內(nèi)容字段。
5.根據(jù)權(quán)利要求1所述的方法,其中確定所述文檔的所述得分還基于以下中的至少一個(gè):
所述一個(gè)或多個(gè)關(guān)鍵詞中出現(xiàn)在所述文檔的所述字段中的關(guān)鍵詞的數(shù)目;
所述文檔的所述字段的長度;以及
在所述文檔選自多個(gè)文檔的情況下,所述多個(gè)文檔中出現(xiàn)所述關(guān)鍵詞的文檔的數(shù)目。
6.根據(jù)權(quán)利要求1所述的方法,其中確定所述文檔的所述得分包括:
標(biāo)準(zhǔn)化所述權(quán)重;以及
基于標(biāo)準(zhǔn)化后的所述權(quán)重,確定所述文檔的所述得分。
7.根據(jù)權(quán)利要求1所述的方法,還包括:
響應(yīng)于確定所述文檔屬于所述文檔類別,向所述文檔應(yīng)用與所述文檔類別對(duì)應(yīng)的標(biāo)簽。
8.根據(jù)權(quán)利要求7所述的方法,還包括:
響應(yīng)于針對(duì)所述文檔的查詢請(qǐng)求,提供包括所述文檔和所述標(biāo)簽的查詢結(jié)果。
9.一種電子設(shè)備,包括:
至少一個(gè)處理單元;
至少一個(gè)存儲(chǔ)器,所述至少一個(gè)存儲(chǔ)器被耦合到所述至少一個(gè)處理單元并且存儲(chǔ)由所述至少一個(gè)處理單元執(zhí)行的指令,所述指令當(dāng)由所述至少一個(gè)處理單元執(zhí)行時(shí),使得所述電子設(shè)備執(zhí)行以下動(dòng)作:
確定與文檔類別相關(guān)聯(lián)的一個(gè)或多個(gè)關(guān)鍵詞和對(duì)應(yīng)權(quán)重;
至少基于所述一個(gè)或多個(gè)關(guān)鍵詞在所述文檔的字段中出現(xiàn)的頻率以及所述權(quán)重,確定所述文檔相對(duì)于所述一個(gè)或多個(gè)關(guān)鍵詞的得分;
響應(yīng)于所述文檔的所述得分高于閾值,確定所述文檔屬于所述文檔類別,其中所述文檔類別選自多個(gè)文檔類別;
確定所述文檔的與所述多個(gè)文檔類別對(duì)應(yīng)的多個(gè)得分;
基于所述多個(gè)得分中的最大得分與前閾值的比較,確定后閾值;
標(biāo)準(zhǔn)化所述多個(gè)得分;以及
響應(yīng)于所述文檔的標(biāo)準(zhǔn)化后的得分大于所述后閾值,確定所述文檔屬于與所述標(biāo)準(zhǔn)化后的得分對(duì)應(yīng)的文檔類別。
10.根據(jù)權(quán)利要求9所述的電子設(shè)備,其中所述一個(gè)或多個(gè)關(guān)鍵詞和所述權(quán)重是通過神經(jīng)網(wǎng)絡(luò)基于文本語料庫訓(xùn)練得到的。
11.根據(jù)權(quán)利要求9所述的電子設(shè)備,其中所述文檔的所述字段包括標(biāo)題字段和內(nèi)容字段中的至少一個(gè)。
12.根據(jù)權(quán)利要求9所述的電子設(shè)備,其中所述文檔的所述字段僅包括內(nèi)容字段。
13.根據(jù)權(quán)利要求9所述的電子設(shè)備,其中確定所述文檔的所述得分還基于以下中的至少一個(gè):
所述一個(gè)或多個(gè)關(guān)鍵詞中出現(xiàn)在所述文檔的所述字段中的關(guān)鍵詞的數(shù)目;
所述文檔的所述字段的長度;以及
在所述文檔選自多個(gè)文檔的情況下,所述多個(gè)文檔中出現(xiàn)所述關(guān)鍵詞的文檔的數(shù)目。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于伊姆西IP控股有限責(zé)任公司,未經(jīng)伊姆西IP控股有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810362310.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 請(qǐng)求沒有進(jìn)行IMS注冊(cè)的用戶進(jìn)行注冊(cè)的方法
- 對(duì)要進(jìn)行紋理操作的像素進(jìn)行分組
- 對(duì)餐盤進(jìn)行溫度調(diào)節(jié)和進(jìn)行分配的獨(dú)立小車
- 對(duì)圖像進(jìn)行編碼
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 蛋糕(甜蜜進(jìn)行時(shí))
- 對(duì)定位輔助數(shù)據(jù)進(jìn)行分級(jí)和分組以進(jìn)行廣播
- 對(duì)物體進(jìn)行分離和定向以進(jìn)行供料
- 對(duì)工件進(jìn)行評(píng)價(jià)以進(jìn)行加工的方法
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





