[發(fā)明專利]一種文本分類方法、系統(tǒng)、設(shè)備及介質(zhì)有效
| 申請?zhí)枺?/td> | 202110754670.2 | 申請日: | 2021-07-05 |
| 公開(公告)號: | CN113254653B | 公開(公告)日: | 2021-12-21 |
| 發(fā)明(設(shè)計(jì))人: | 姚娟娟;鐘南山 | 申請(專利權(quán))人: | 明品云(北京)數(shù)據(jù)科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 上海漢之律師事務(wù)所 31378 | 代理人: | 馮華 |
| 地址: | 102400 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分類 方法 系統(tǒng) 設(shè)備 介質(zhì) | ||
1.一種文本分類方法,其特征在于,包括以下步驟:
獲取待分類文本;
將所述待分類文本輸入至預(yù)先生成的文本分類模型中,獲取所述待分類文本的特征向量,記為第一特征向量;
獲取初始文本類別的中心點(diǎn)特征向量,記為第二特征向量;
計(jì)算所述第一特征向量與所述第二特征向量的相似度,并判斷所述相似度是否大于或等于第一閾值;
若大于或等于第一閾值,則將所述待分類文本分類至所述初始文本類別中形成第一文本類別,并根據(jù)所述第一特征向量和所述第二特征向量更新所述第一文本類別的中心點(diǎn)特征向量;
若小于第一閾值,則新建一個第二文本類別,并將所述待分類文本分類至新建的第二文本類別中,以及將所述第一特征向量作為所述第二文本類別的中心點(diǎn)特征向量;
生成初始文本類別的過程包括:
對文本數(shù)據(jù)集進(jìn)行詞條切分,獲取多個詞條;
對每個詞條中的字符進(jìn)行框標(biāo)注,獲取對應(yīng)的字符框;
對所有字符框進(jìn)行顏色和編號標(biāo)記,并將同一字符所對應(yīng)的字符框標(biāo)記相同顏色和相同編號;
獲取每個字符在對應(yīng)詞條中的位置序號,并根據(jù)所述位置序號判斷所述多個詞條中是否存在字符框顏色和編號均相同的詞條;若存在,則從相同的詞條中選擇其中一個詞條進(jìn)行保留,并刪除其余的相同詞條;若不存在,則保留對應(yīng)的所有詞條;
計(jì)算保留后的每個詞條與關(guān)鍵詞的編輯距離,并獲取與所述關(guān)鍵詞的編輯距離最近的前K個詞條;
建立與所述前K個詞條對應(yīng)數(shù)量的文本類別,作為所述初始文本類別。
2.根據(jù)權(quán)利要求1所述的文本分類方法,其特征在于,生成所述文本分類模型的過程包括:
按照預(yù)設(shè)的文本提取規(guī)則從文本數(shù)據(jù)集中提取多個字符;
對提取出的多個字符進(jìn)行合并或拆分,生成訓(xùn)練語料;
從所述訓(xùn)練語料中獲取關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞對所述訓(xùn)練語料進(jìn)行類別標(biāo)注;
利用類別標(biāo)注后的訓(xùn)練語料對一個或多個深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,生成所述文本分類模型。
3.根據(jù)權(quán)利要求2所述的文本分類方法,其特征在于,生成訓(xùn)練語料的過程包括:
獲取訓(xùn)練文本數(shù)據(jù),并對所述訓(xùn)練文本數(shù)據(jù)進(jìn)行版式分析、文本檢測和文本識別,生成文本數(shù)據(jù)集;
從目標(biāo)字典中獲取標(biāo)準(zhǔn)字符集合,并計(jì)算所述文本數(shù)據(jù)集中每個字符與所述標(biāo)準(zhǔn)字符集合中每個字符的編輯距離;
獲取與所述文本數(shù)據(jù)集中每個字符編輯距離最近的標(biāo)準(zhǔn)字符,記為待提取字符;
獲取所述文本數(shù)據(jù)集中每個字符在所述訓(xùn)練文本數(shù)據(jù)中的位置,并將所獲取的位置與對應(yīng)的待提取字符進(jìn)行關(guān)聯(lián),形成文本提取規(guī)則;
利用所述文本提取規(guī)則從所述文本數(shù)據(jù)集中提取多個字符;
對提取出的多個字符進(jìn)行合并或拆分,生成所述訓(xùn)練語料。
4.根據(jù)權(quán)利要求2或3所述的文本分類方法,其特征在于,對每個詞條中的字符進(jìn)行框標(biāo)注時,還包括:
判斷同一詞條中相鄰兩個字符所對應(yīng)的字符框是否存在重疊;
若存在重疊,則獲取其中一個字符框的錨點(diǎn)或關(guān)鍵點(diǎn),并根據(jù)所述錨點(diǎn)或關(guān)鍵點(diǎn)來拖動對應(yīng)的字符框,直至相鄰兩個字符所對應(yīng)的字符框無重疊;
和/或,判斷字符框的邊界線是否與詞條中的字符存在重疊;
若存在重疊,則獲取對應(yīng)字符框的錨點(diǎn)或關(guān)鍵點(diǎn),根據(jù)所述錨點(diǎn)或關(guān)鍵點(diǎn)來拖動對應(yīng)的字符框,直至字符框與對應(yīng)的字符無重疊。
5.根據(jù)權(quán)利要求3所述的文本分類方法,其特征在于,獲取所述訓(xùn)練文本數(shù)據(jù)的過程包括:
利用文本識別模型對一個或多個樣本圖像進(jìn)行文本識別,獲取初始識別文本數(shù)據(jù);
改變所述初始識別文本數(shù)據(jù)中的字體清晰度、字體間距、字體背景和字體類型,生成增強(qiáng)文本數(shù)據(jù);
將所述初始識別文本數(shù)據(jù)和增強(qiáng)文本數(shù)據(jù)輸入至生成對抗網(wǎng)絡(luò)中,生成所述訓(xùn)練文本數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于明品云(北京)數(shù)據(jù)科技有限公司,未經(jīng)明品云(北京)數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110754670.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





