[發(fā)明專利]長(zhǎng)文本處理方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011492809.2 | 申請(qǐng)日: | 2020-12-17 |
| 公開(kāi)(公告)號(hào): | CN112527992B | 公開(kāi)(公告)日: | 2023-01-17 |
| 發(fā)明(設(shè)計(jì))人: | 代旭東;葉忠義;張浩宇;方昕 | 申請(qǐng)(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F16/35;G06F16/34 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 230088 安徽*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 處理 方法 相關(guān) 設(shè)備 可讀 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)公開(kāi)了一種長(zhǎng)文本處理方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì),對(duì)于長(zhǎng)度大于預(yù)設(shè)長(zhǎng)度的長(zhǎng)文本,可以基于預(yù)置的文本處理模型的處理類型,將該長(zhǎng)文本分割成多個(gè)文本片段,每個(gè)文本片段的長(zhǎng)度不超過(guò)該文本處理模型所能處理最大文本的長(zhǎng)度,然后針對(duì)文本片段,利用該文本處理模型進(jìn)行處理,得到該文本片段對(duì)應(yīng)的處理結(jié)果,最后基于各個(gè)文本片段對(duì)應(yīng)的處理結(jié)果,即可得到與該長(zhǎng)文本對(duì)應(yīng)的處理結(jié)果。上述方案中,通過(guò)基于文本處理模型所能處理最大文本的長(zhǎng)度,將長(zhǎng)文本的處理轉(zhuǎn)化為對(duì)多個(gè)短文本的處理,基于多個(gè)短文本的處理結(jié)果得到長(zhǎng)文本的處理結(jié)果的方式,從而實(shí)現(xiàn)了基于文本處理模型對(duì)長(zhǎng)文本的處理。
技術(shù)領(lǐng)域
本申請(qǐng)涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,更具體的說(shuō),是涉及一種長(zhǎng)文本處理方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
在很多場(chǎng)景(如,人機(jī)對(duì)話場(chǎng)景、機(jī)器閱讀理解場(chǎng)景、文本分類場(chǎng)景等)中需要對(duì)文本進(jìn)行處理。目前,多使用訓(xùn)練好的預(yù)訓(xùn)練模型,構(gòu)造序列標(biāo)注、文本分類、閱讀理解等下游任務(wù)模型,以預(yù)訓(xùn)練模型參數(shù)為基礎(chǔ),在下游任務(wù)標(biāo)注數(shù)據(jù)上進(jìn)行微調(diào),實(shí)現(xiàn)不同場(chǎng)景下的文本處理模型,以對(duì)文本進(jìn)行處理。
但是,目前,預(yù)訓(xùn)練模型一般Transformer結(jié)構(gòu),其單次處理的文本長(zhǎng)度不超過(guò)預(yù)設(shè)長(zhǎng)度,比如,12層或24層的Transformer結(jié)構(gòu),其單次處理的文本長(zhǎng)度不超過(guò)512字,因此,基于目前的文本處理模型結(jié)構(gòu)無(wú)法對(duì)長(zhǎng)文本(文本長(zhǎng)度大于預(yù)設(shè)長(zhǎng)度的文本)進(jìn)行處理。
因此,如何基于目前的文本處理模型結(jié)構(gòu)實(shí)現(xiàn)對(duì)長(zhǎng)文本的處理,成為本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
鑒于上述問(wèn)題,本申請(qǐng)?zhí)岢隽艘环N長(zhǎng)文本處理方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)。具體方案如下:
一種長(zhǎng)文本處理方法,所述方法包括:
獲取待處理的長(zhǎng)文本;
基于預(yù)置的文本處理模型的處理類型,將所述長(zhǎng)文本分割成多個(gè)文本片段,每個(gè)文本片段的長(zhǎng)度不超過(guò)所述文本處理模型所能處理最大文本的長(zhǎng)度;
針對(duì)每個(gè)文本片段,利用所述文本處理模型進(jìn)行處理,得到所述文本片段對(duì)應(yīng)的處理結(jié)果;
基于各文本片段對(duì)應(yīng)的處理結(jié)果,得到與所述長(zhǎng)文本對(duì)應(yīng)的處理結(jié)果。
可選地,每一處理類型對(duì)應(yīng)的所述文本處理模型是以訓(xùn)練用文本片段為訓(xùn)練樣本,以每個(gè)訓(xùn)練用文本片段標(biāo)注的與所述處理類型對(duì)應(yīng)的處理結(jié)果為樣本標(biāo)簽,對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)得到的。
可選地,每一處理類型對(duì)應(yīng)的所述文本處理模型是采用如下方式進(jìn)行訓(xùn)練的:
以第一訓(xùn)練用文本片段為訓(xùn)練樣本,以第一訓(xùn)練用文本片段標(biāo)注的與所述處理類型對(duì)應(yīng)的處理結(jié)果為樣本標(biāo)簽,對(duì)教師模型進(jìn)行訓(xùn)練;
利用訓(xùn)練好的教師模型對(duì)所述第一訓(xùn)練用文本片段和第二訓(xùn)練用文本片段進(jìn)行處理,得到所述第一訓(xùn)練用文本片段的處理結(jié)果和所述第二訓(xùn)練用文本片段的處理結(jié)果;
以所述第一訓(xùn)練用文本片段和所述第二訓(xùn)練用文本片段為訓(xùn)練樣本,以所述第一訓(xùn)練用文本片段的處理結(jié)果和所述第二訓(xùn)練用文本片段的處理結(jié)果為樣本標(biāo)簽,對(duì)學(xué)生模型進(jìn)行訓(xùn)練;
將訓(xùn)練好的學(xué)生模型作為與所述處理類型對(duì)應(yīng)的文本處理模型;
其中,所述學(xué)生模型的參數(shù)量小于所述教師模型的參數(shù)量。
可選地,所述基于預(yù)置的文本處理模型的處理類型,將所述長(zhǎng)文本分割成多個(gè)文本片段,包括:
獲取預(yù)設(shè)的第一參量和第二參量,所述第一參量大于所述第二參量;所述第一參量用于確定將所述長(zhǎng)文本分割后每個(gè)文本片段的長(zhǎng)度,所述第二參量用于確定將所述長(zhǎng)文本分割后相鄰兩個(gè)文本片段的間隔長(zhǎng)度;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011492809.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





