[發(fā)明專利]文本主題分類方法、裝置、電子設備以及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110550279.0 | 申請日: | 2021-05-20 |
| 公開(公告)號: | CN113177121A | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設計)人: | 楊雷;王全禮;李昱;鄧堯文;王正旸 | 申請(專利權(quán))人: | 中國建設銀行股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/44;G06N3/04;G06N3/08 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 主題 分類 方法 裝置 電子設備 以及 存儲 介質(zhì) | ||
本發(fā)明實施例公開了一種文本主題分類方法、裝置、電子設備以及存儲介質(zhì),涉及云計算領(lǐng)域。該方法包括:獲取待分類文本,基于訓練好的主題關(guān)聯(lián)詞識別模型確定所述待分類文本的主題關(guān)聯(lián)詞列表;基于預設級別的主題庫確定所述主題關(guān)聯(lián)詞列表中各主題關(guān)聯(lián)詞的預設級別的主題以及所述預設級別的主題在所述待分類文本中的頻次;基于所述預設級別的主題在所述待分類文本中的頻次以及所述預設級別的主題的預設權(quán)重確定所述主題的主題概率值,并基于預設主題概率閾值確定所述待分類文本的目標主題。通過本發(fā)明實施例公開的技術(shù)方案,實現(xiàn)了提高文本分類的準確性,同時增加文本分類的靈活性和實用性。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及云計算技術(shù)領(lǐng)域,尤其涉及一種文本主題分類方法、裝置、電子設備以及存儲介質(zhì)。
背景技術(shù)
資訊主題分類是資訊管理的核心模塊,例如將創(chuàng)作或者外部接入的資訊信息按股票、資訊、財經(jīng)等主題進行分類以便于進一步提供查詢、全文檢索等功能。
資訊主題分類同文本分類相似,通常做法均是首先對大量文本進行預處理形成分類器訓練語料,通過訓練語料訓練神經(jīng)網(wǎng)絡分類器,最后對待分類的文本通過分類器進行標簽提取,但此類處理方法在實施過程缺乏一定的兼容性和靈活性。
發(fā)明內(nèi)容
本發(fā)明提供一種文本主題分類方法、裝置、電子設備以及存儲介質(zhì),以實現(xiàn)提高文本分類的準確性,同時增加文本分類的靈活性和實用性。
第一方面,本發(fā)明實施例提供了一種文本主題分類方法,該方法包括:
獲取待分類文本,基于訓練好的主題關(guān)聯(lián)詞識別模型確定所述待分類文本的主題關(guān)聯(lián)詞列表;
基于預設級別的主題庫確定所述主題關(guān)聯(lián)詞列表中各主題關(guān)聯(lián)詞的預設級別的主題以及所述預設級別的主題在所述待分類文本中的頻次;
基于所述預設級別的主題在所述待分類文本中的頻次以及所述預設級別的主題的預設權(quán)重確定所述主題的主題概率值,并基于預設主題概率閾值確定所述待分類文本的目標主題。
可選的,所述主題關(guān)聯(lián)詞識別模型的訓練方法包括:
獲取用于模型訓練的歷史分類文本,并確定各歷史分類文本的主題關(guān)聯(lián)詞標簽,其中,所述主題關(guān)聯(lián)詞標簽至少包括:標簽起始標識以及標簽結(jié)束標識;
基于各所述歷史分類文本對待訓練的主題關(guān)聯(lián)詞識別模型進行迭代訓練,直到迭代訓練的主題關(guān)聯(lián)詞識別模型滿足預設條件,得到訓練完成的主題關(guān)聯(lián)詞識別模型。
可選的,在所述獲取待分類文本,基于訓練好的主題關(guān)聯(lián)詞識別模型確定所述待分類文本的主題關(guān)聯(lián)詞列表之前,還包括:
建立初始主題庫;其中,所述初始主題詞庫包括主題詞庫、主題語料庫以及主題關(guān)聯(lián)詞庫;
獲取所述初始主題詞庫中的各主題,并基于所述主題語料庫確定所述各主題分別對應的語料文本;
基于所述主題關(guān)聯(lián)詞庫確定所述語料文本對應的主題關(guān)聯(lián)詞;
將所述各主題、所述主題對應的語料文本以及所述語料文本對應的主題關(guān)聯(lián)詞對應存儲,以形成主題庫。
可選的,所述主題庫中包括至少一個預設級別的主題子庫,所述預設級別對應的各主題、所述主題對應的語料文本以及所述語料文本對應的主題關(guān)聯(lián)詞分別存儲。
可選的,在所述主題庫中,上一級別的主題關(guān)聯(lián)詞庫中包括當前級別的主題關(guān)聯(lián)詞庫中的各主題關(guān)聯(lián)詞;上一級別的主題語料庫中包括當前級別的主題語料庫中的各主題語料。
可選的,所述獲取待分類文本之后,還包括:
對所述待分類文本進行格式預處理,其中,所述格式預處理包括去除文本中的不可讀字符與空格;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國建設銀行股份有限公司,未經(jīng)中國建設銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110550279.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





