[發(fā)明專利]文本預(yù)處理方法、分類方法、裝置及設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201911228510.3 | 申請(qǐng)日: | 2019-12-04 |
| 公開(公告)號(hào): | CN111143551A | 公開(公告)日: | 2020-05-12 |
| 發(fā)明(設(shè)計(jì))人: | 劉凡;張格皓 | 申請(qǐng)(專利權(quán))人: | 支付寶(杭州)信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35 |
| 代理公司: | 北京博思佳知識(shí)產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 周嗣勇 |
| 地址: | 310000 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 預(yù)處理 方法 分類 裝置 設(shè)備 | ||
本說明書實(shí)施例提供一種文本預(yù)處理方法、分類方法、裝置及設(shè)備。在獲取待處理文本后,可以判斷待處理文本的長(zhǎng)度是否大于指定長(zhǎng)度,如果大于,則以待處理文本中至少一個(gè)指定字符作為位置參考,從文本中截取出多個(gè)字符,并將截取的字符拼接,得到長(zhǎng)度等于指定長(zhǎng)度的新文本,然后用新文本對(duì)預(yù)設(shè)的語(yǔ)言模型進(jìn)行訓(xùn)練。通過對(duì)長(zhǎng)文本進(jìn)行截?cái)嗥唇樱梢詮拈L(zhǎng)文本中截取表示核心內(nèi)容的關(guān)鍵字符,拼接得到長(zhǎng)度滿足語(yǔ)言模型要求的新文本,再通過新文本對(duì)語(yǔ)言模型進(jìn)行訓(xùn)練,使得長(zhǎng)文本可以得到模型的支持,且通過模型對(duì)長(zhǎng)文本中的核心內(nèi)容的學(xué)習(xí),提升了模型的性能,使得訓(xùn)練得到的語(yǔ)言模型在對(duì)文本進(jìn)行分類時(shí)具有更高的準(zhǔn)確率。
技術(shù)領(lǐng)域
本說明書涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種文本預(yù)處理方法、分類方法、裝置及設(shè)備。
背景技術(shù)
文本分類應(yīng)用在很多領(lǐng)域當(dāng)中,舉個(gè)例子,由于互聯(lián)網(wǎng)的開放性及傳播特性,一個(gè)小小的負(fù)面輿情很可能就是破壞企業(yè)形象的一把利劍,因此,網(wǎng)絡(luò)輿情監(jiān)測(cè),獲取網(wǎng)絡(luò)輿情分析報(bào)告非常有必要,很多輿情分析平臺(tái)可以從網(wǎng)絡(luò)中獲取各種評(píng)論、文章、新聞等,然后,對(duì)這些評(píng)論、文章等文本進(jìn)分類,區(qū)分出負(fù)面評(píng)論和正面評(píng)論。由于網(wǎng)絡(luò)的各種文本很多都是長(zhǎng)文本,字?jǐn)?shù)較多,而當(dāng)前機(jī)器學(xué)習(xí)算法由于受機(jī)器內(nèi)存和硬件配置的限制,無法對(duì)長(zhǎng)文本的全部?jī)?nèi)容進(jìn)行訓(xùn)練,以得到分類模型。因而,在將長(zhǎng)文本輸入到語(yǔ)言模型進(jìn)行訓(xùn)練和分類時(shí),往往需要對(duì)長(zhǎng)文本進(jìn)行預(yù)處理,使其滿足語(yǔ)言模型的要求。相關(guān)技術(shù)中,采用長(zhǎng)文本對(duì)語(yǔ)言模型進(jìn)行訓(xùn)練時(shí),要么人工維護(hù)成本較高,要么訓(xùn)練得到的語(yǔ)言模型性能還夠理想,對(duì)文本進(jìn)行分類時(shí)準(zhǔn)確度較低。因而,有必要對(duì)長(zhǎng)文本的預(yù)處理方法和文本分類方法加以改進(jìn),使其適用于一些效果較好的語(yǔ)言模型,并且提升分類的準(zhǔn)確性。
發(fā)明內(nèi)容
基于此,本說明書提供了一種文本預(yù)處理方法、分類方法、裝置及設(shè)備。
根據(jù)本說明書實(shí)施例的第一方面,提供一種文本預(yù)處理方法,所述方法包括:
獲取待處理文本;
判斷所述待處理文本的長(zhǎng)度是否大于指定長(zhǎng)度;
如果大于,則以所述待處理文本的至少一個(gè)指定字符作為位置參考從所述待處理文本截取多個(gè)字符;
將所截取的字符拼接成新文本,以通過所述新文本對(duì)預(yù)設(shè)的語(yǔ)言模型進(jìn)行訓(xùn)練,其中,所述新文本的長(zhǎng)度等于所述指定長(zhǎng)度,所述指定長(zhǎng)度基于所述語(yǔ)言模型支持的文本長(zhǎng)度確定。
根據(jù)本說明書實(shí)施例的第二方面,提供一種文本分類方法,所述方法包括:
獲取待分類文本;
判斷所述待分類文本的長(zhǎng)度是否大于指定長(zhǎng)度;
如果大于,則以所述待分類文本的至少一個(gè)指定字符作為位置參考從所述待處理文本截取多個(gè)字符;
將所截取的字符拼接成新文本,其中,所述新文本的長(zhǎng)度等于所述指定長(zhǎng)度,所述指定長(zhǎng)度基于預(yù)設(shè)的語(yǔ)言模型支持的文本長(zhǎng)度確定;
通過所述語(yǔ)言模型對(duì)所述新文本分類。
根據(jù)本說明書實(shí)施例的第三方面,提供一種文本預(yù)處理裝置,所述裝置包括:
獲取模塊,用于獲取待處理文本;
判斷模塊,用于判斷所述待處理文本的長(zhǎng)度是否大于指定長(zhǎng)度;
截取模塊,用于如果大于,則以所述待處理文本的至少一個(gè)指定字符作為位置參考從所述待處理文本截取多個(gè)字符;
拼接模塊,用于將所截取的字符拼接成新文本,以通過所述新文本對(duì)預(yù)設(shè)的語(yǔ)言模型進(jìn)行訓(xùn)練,其中,所述新文本的長(zhǎng)度等于所述指定長(zhǎng)度,所述指定長(zhǎng)度基于所述語(yǔ)言模型支持的文本長(zhǎng)度確定。
根據(jù)本說明書實(shí)施例的第四方面,提供一種文本分類裝置,所述裝置包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶(杭州)信息技術(shù)有限公司,未經(jīng)支付寶(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911228510.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測(cè)樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲(chǔ)藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





