[發明專利]一種文本分類方法及裝置有效
| 申請號: | 201810298048.3 | 申請日: | 2018-04-03 |
| 公開(公告)號: | CN108717519B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 殷子墨;李健;張連毅;武衛東 | 申請(專利權)人: | 北京捷通華聲科技股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 裝置 | ||
本發明實施例提供了一種文本分類方法及裝置。在本發明實施例中,確定多個文本類別;對于每一個文本類別,獲取分別屬于該文本類別的多個樣本文本;確定預設神經網絡模型;使用分別屬于每一個文本類別的多個樣本文本對預設神經網絡模型訓練,得到目標文本分類模型;獲取待分類文本;使用目標文本分類模型確定待分類文本在多個文本類別中所屬的目標文本類別。通過本發明實施例的方法,可以確定待分類文本所述的文本類別。之后可以目標文本類別分類存儲待分類文本,方便用戶之后查詢和使用和同領域歸類。
技術領域
本發明涉及計算機技術領域,特別是涉及一種文本分類方法及裝置。
背景技術
近年來,隨著圖像識別技術的不斷成熟,名片識別、證件識別、銀行卡識別等技術紛紛投入使用。這些技術可以從照片或圖片中提取文本,但是文本所屬的類別需要進行細分,才利于存儲和使用。如名片中常出現的姓名、地址、職位、公司名稱等。對文本分類后再分類存儲這些文本,可以方便用戶之后查詢、使用和同領域歸類。
然而,如何對本文分類是一個亟待解決的技術問題。
發明內容
為了解決上述問題,本發明公開了一種文本分類方法及裝置。
第一方面,本發明實施例示出了一種文本分類方法,所述方法包括:
確定多個文本類別;
對于每一個文本類別,獲取分別屬于所述文本類別的多個樣本文本;
確定預設神經網絡模型;
使用分別屬于每一個文本類別的多個樣本文本對預設神經網絡模型訓練,得到目標文本分類模型;
獲取待分類文本;
使用所述目標文本分類模型確定所述待分類文本在所述多個文本類別中所屬的目標文本類別。
在一個可選的實現方式中,所述獲取待分類文本,包括:
獲取目標圖像,所述目標圖像中包括待分類文本;對所述目標圖像進行圖像識別,得到所述目標圖像中包括的文本,并作為所述待分類文本;
或,
獲取用戶輸入的文本,并作為所述待分類文本;
或,
獲取目標語音信號;對所述目標語音信號進行語音識別,得到所述目標語音信號對應的文本,并作為待分類文本。
在一個可選的實現方式中,所述預設神經網絡模型包括長短期記憶網絡LSTM和門控循環單元GRU。
在一個可選的實現方式中,所述使用所述目標文本分類模型確定所述待分類文本在所述多個文本類別中所屬的目標文本類別,包括:
獲取所述待分類文本中的每一個字符對應的向量;
將每一個字符對應的向量按照字符在所述待分類文本中的先后順序組成向量特征;
利用所述向量特征和預設權重確定所述待分類文本屬于每一個文本類別的概率;
將最大的概率的文本類別確定為所述待分類文本所屬的目標文本類別。
在一個可選的實現方式中,所述使用所述目標文本分類模型確定所述待分類文本在所述多個文本類別中所屬的目標文本類別之后,還包括:
獲取用戶對使用所述目標文本分類模型確定所述待分類文本所屬的目標文本類別的評價信息;
根據所述評價信息優化所述目標文本分類模型。
第二方面,本發明實施例示出了一種文本分類裝置,所述裝置包括:
第一確定模塊,用于確定多個文本類別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京捷通華聲科技股份有限公司,未經北京捷通華聲科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810298048.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:帶充電功能的RF讀卡器
- 下一篇:一種行人重識別方法及裝置





