[發(fā)明專利]一種基于對(duì)比學(xué)習(xí)的新聞冗余判斷方法、裝置及設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202211390604.2 | 申請(qǐng)日: | 2022-11-08 |
| 公開(kāi)(公告)號(hào): | CN115659944A | 公開(kāi)(公告)日: | 2023-01-31 |
| 發(fā)明(設(shè)計(jì))人: | 張?jiān)反?/a>;張澤宇;譚智雄 | 申請(qǐng)(專利權(quán))人: | 張?jiān)反?/a>;張澤宇 |
| 主分類號(hào): | G06F40/194 | 分類號(hào): | G06F40/194;G06F40/284;G06F40/30;G06F18/214;G06F18/22;G06N3/0455;G06N3/088 |
| 代理公司: | 哈爾濱市陽(yáng)光惠遠(yuǎn)知識(shí)產(chǎn)權(quán)代理有限公司 23211 | 代理人: | 劉景祥 |
| 地址: | 102401 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 對(duì)比 學(xué)習(xí) 新聞 冗余 判斷 方法 裝置 設(shè)備 | ||
本發(fā)明公開(kāi)了一種基于對(duì)比學(xué)習(xí)的新聞冗余判斷方法、裝置及設(shè)備,涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,解決了現(xiàn)有技術(shù)中新聞冗余判斷方法應(yīng)用范圍窄以及成本高的技術(shù)問(wèn)題,主要包括:基于Simbert框架構(gòu)造模型,并定義模型下游任務(wù)以及損失函數(shù);將所述訓(xùn)練集輸入至所述模型進(jìn)行訓(xùn)練;基于所述訓(xùn)練好的模型,計(jì)算所述待判斷新聞文本采用對(duì)比學(xué)習(xí)的方法與所述構(gòu)建的比較環(huán)境中各個(gè)新聞文本的余弦相似度;將所述余弦相似度與預(yù)設(shè)閾值進(jìn)行比較,若存在所述余弦相似度大于所述預(yù)設(shè)閾值的情況,則所述待判斷新聞文本冗余;該方法基于Simbert框架,采用無(wú)監(jiān)督模型訓(xùn)練方法,能夠?qū)崿F(xiàn)低成本的參數(shù)調(diào)整和模型調(diào)整,應(yīng)用于多種場(chǎng)景,符合新聞時(shí)效性強(qiáng)的特點(diǎn)。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域。
背景技術(shù)
我們身處信息爆炸的互聯(lián)網(wǎng)時(shí)代,每天傳播的新聞數(shù)以億萬(wàn)計(jì),其中很多新聞都報(bào)道的是同一事件,信息的冗余率很高。對(duì)于需要大量外部信息輔助決策的行業(yè),如金融行業(yè),公司會(huì)采購(gòu)相關(guān)領(lǐng)域的新聞源,但因?yàn)楦鞣娇駸嶙非罅髁康奶攸c(diǎn),新聞的冗余率很高,一般能達(dá)到30%以上。此外,因?yàn)樾侣劦臅r(shí)效性強(qiáng)的特點(diǎn),多數(shù)行業(yè)需要判斷的速度達(dá)到毫秒級(jí)別。
目前,判斷新聞的冗余情況主要分為兩種類型,一種是基于字符的判斷,即簡(jiǎn)單比對(duì)新聞標(biāo)題的字符,計(jì)算相似度,根據(jù)經(jīng)驗(yàn)設(shè)置閾值,最后據(jù)此判斷新聞是否相同。這種方法往往會(huì)需要人工輔助判斷,人工成本高,判斷效果較差。另一種是基于語(yǔ)義的判斷,即根據(jù)新聞標(biāo)題(正文)的語(yǔ)義,計(jì)算相似度,判斷新聞是否相同。這種方法往往需要前期進(jìn)行模型訓(xùn)練,訓(xùn)練出一個(gè)適應(yīng)于實(shí)際領(lǐng)域的模型。這種方法中,一般采用的模型有word2vec、Bert等等,這些都是模型都是有監(jiān)督的,需要前期花費(fèi)時(shí)間和金錢構(gòu)造出一個(gè)有監(jiān)督的訓(xùn)練數(shù)據(jù)集。然而,現(xiàn)實(shí)生活中,原始新聞數(shù)據(jù)是不帶有標(biāo)簽的,而有監(jiān)督的模型訓(xùn)練需要大量的帶標(biāo)簽的數(shù)據(jù),人工為數(shù)以萬(wàn)級(jí)的新聞數(shù)據(jù)打上標(biāo)簽是需要較高的時(shí)間成本和金錢投入的。且因?yàn)椴煌I(lǐng)域的新聞,特征不同,不能用一個(gè)訓(xùn)練好的模型一勞永逸地平移到多個(gè)應(yīng)用場(chǎng)景。在發(fā)展日新月異的時(shí)代,用于表征語(yǔ)義的模型需要定期微調(diào),與時(shí)俱進(jìn),采用有監(jiān)督的模型顯然成本太高。因此,如何以較低的成本,使得訓(xùn)練出的模型既能充分地理解新聞的語(yǔ)義,又能結(jié)合新聞時(shí)效性強(qiáng)的特點(diǎn),實(shí)現(xiàn)新聞冗余情況的準(zhǔn)確判斷,成為本領(lǐng)域亟待解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題,本發(fā)明提供了一種基于對(duì)比學(xué)習(xí)的新聞冗余判斷方法、裝置及設(shè)備,基于Simbert框架,采用無(wú)監(jiān)督模型訓(xùn)練方法,能夠?qū)崿F(xiàn)低成本的參數(shù)調(diào)整和模型調(diào)整,應(yīng)用于多種場(chǎng)景,符合新聞時(shí)效性強(qiáng)的特點(diǎn)。
本發(fā)明提供一種基于對(duì)比學(xué)習(xí)的新聞冗余判斷方法,包括:
S1、獲取新聞文本,并對(duì)所述新聞文本進(jìn)行分詞處理;
S2、采用Simcse無(wú)監(jiān)督訓(xùn)練方法,定義語(yǔ)料生成器;
S3、基于經(jīng)過(guò)分詞處理后的新聞文本,根據(jù)所述語(yǔ)料生成器得到訓(xùn)練集;
S4、基于Simbert框架構(gòu)造語(yǔ)義編碼模型,并定義模型下游任務(wù)以及損失函數(shù);
S5、將所述訓(xùn)練集輸入至所述語(yǔ)義編碼模型進(jìn)行訓(xùn)練;
S6、獲取待判斷新聞文本;
S7、根據(jù)所述待判斷新聞文本的時(shí)間,從新聞庫(kù)中構(gòu)造比較環(huán)境;
S8、基于所述訓(xùn)練好的語(yǔ)義編碼模型,計(jì)算所述待判斷新聞文本與所述新聞庫(kù)中各個(gè)新聞文本的余弦相似度;
S9、將所述余弦相似度與預(yù)設(shè)閾值進(jìn)行比較,若存在所述余弦相似度大于所述預(yù)設(shè)閾值的情況,則所述待判斷新聞文本冗余。
進(jìn)一步地,采用Simcse無(wú)監(jiān)督訓(xùn)練方法,定義語(yǔ)料生成器,包括:
S21、將經(jīng)過(guò)分詞處理后的新聞文本輸入Dropout編碼器,得到第一向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于張?jiān)反?張澤宇,未經(jīng)張?jiān)反?張澤宇許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211390604.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





