[發(fā)明專利]一種文本處理方法和裝置有效
| 申請?zhí)枺?/td> | 202110452764.4 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN112989054B | 公開(公告)日: | 2021-07-30 |
| 發(fā)明(設(shè)計)人: | 劉志煌 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F40/242;G06F40/295 |
| 代理公司: | 深圳翼盛智成知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44300 | 代理人: | 李漢亮 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 處理 方法 裝置 | ||
本發(fā)明實施例公開了一種文本處理方法和裝置;本發(fā)明實施例在獲取待處理文本后,并對待處理文本的文本內(nèi)容進行識別,得到待處理文本的文本詞集合和文本詞集合中每一文本詞對應(yīng)的詞性,然后,根據(jù)文本詞的詞性,在文本詞集合中篩選出待處理文本中用于分類的目標文本詞和機構(gòu)名實體,該機構(gòu)名實體用于指示待處理文本中出現(xiàn)的機構(gòu)名稱,然后,基于機構(gòu)名實體和目標文本詞,將文本詞集合轉(zhuǎn)換為文本信息,通過云平臺對文本信息進行特征提取,得到待處理文本的文本特征,然后,根據(jù)文本特征確定待處理文本的分配路徑,并基于分配路徑分配待處理文本;該方案可以提升文本處理的準確性。
技術(shù)領(lǐng)域
本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種文本處理方法和裝置。
背景技術(shù)
近年來,隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,線上業(yè)務(wù)也越來越多樣。線上業(yè)務(wù)中需要對信息進行處理,尤其是文本信息,對文本信息的處理過程就包含了將文本信息分配至對應(yīng)的處理節(jié)點來處理?,F(xiàn)有的文本處理方法往往基于模板對文本進行分類,從而對文本進行分配處理。
在對現(xiàn)有技術(shù)的研究和實踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn)基于模板的處理方法往往依賴于人工給定的規(guī)則和模板,在處理過程中泛化能力降低,而且通用性不足,因此,導致文本處理的準確性不足。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種文本處理方法和裝置,可以提高文本處理的準確性。
一種文本處理方法,包括:
獲取待處理文本,并對所述待處理文本的文本內(nèi)容進行識別,得到所述待處理文本的文本詞集合和所述文本詞集合中每一文本詞對應(yīng)的詞性;
根據(jù)所述文本詞的詞性,在所述文本詞集合中篩選出所述待處理文本中用于分類的目標文本詞和機構(gòu)名實體,所述機構(gòu)名實體用于指示所述待處理文本中出現(xiàn)的機構(gòu)名稱;
基于所述機構(gòu)名實體和目標文本詞,將所述文本詞集合轉(zhuǎn)換為文本信息;
對所述文本信息進行特征提取,得到所述待處理文本的文本特征;
根據(jù)所述文本特征確定所述待處理文本的分配路徑,并基于所述分配路徑分配所述待處理文本。
相應(yīng)的,本發(fā)明實施例提供一種文本處理裝置,包括:
獲取單元,用于獲取待處理文本,并對所述待處理文本的文本內(nèi)容進行識別,得到所述待處理文本的文本詞集合和所述文本詞集合中每一文本詞對應(yīng)的詞性;
篩選單元,用于根據(jù)所述文本詞的詞性,在所述文本詞集合中篩選出所述待處理文本中用于分類的目標文本詞和機構(gòu)名實體,所述機構(gòu)名實體用于指示所述待處理文本中出現(xiàn)的機構(gòu)名稱;
轉(zhuǎn)換單元,用于基于所述機構(gòu)名實體和目標文本詞,將所述文本詞集合轉(zhuǎn)換為文本信息;
提取單元,用于對所述文本信息進行特征提取,得到所述待處理文本的文本特征;
處理單元,用于根據(jù)所述文本特征確定所述待處理文本的分配路徑,并基于所述分配路徑分配所述待處理文本,以對所述待處理文本進行處理。
可選的,在一些實施例中,所述篩選單元,具體可以用于獲取所述文本詞集合中所有文本詞的文本屬性信息;根據(jù)所述文本詞的詞性和文本屬性信息,在所述文本詞集合中篩選出所述待處理文本中用于分類的目標文本詞;基于預(yù)設(shè)實體識別策略,在所述文本詞集合中識別出所述機構(gòu)名實體。
可選的,在一些實施例中,所述篩選單元,具體可以用于根據(jù)所述文本詞的詞性,在所述文本詞集合中篩選出所述待處理文本的主題詞,所述主題詞為表征所述待處理文本主題的詞;基于所述文本屬性信息,在所述文本詞集合中提取出待處理文本中的關(guān)鍵詞,并將所述主題詞和關(guān)鍵詞作為用于分類的目標文本詞,所述關(guān)鍵詞為區(qū)別所述待處理文本類別的詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110452764.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





