[發(fā)明專利]大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的構(gòu)建方法、裝置、存儲(chǔ)介質(zhì)及電子裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202310268876.3 | 申請(qǐng)日: | 2023-03-15 |
| 公開(kāi)(公告)號(hào): | CN116432693A | 公開(kāi)(公告)日: | 2023-07-14 |
| 發(fā)明(設(shè)計(jì))人: | 肖熊鋒;杜向陽(yáng) | 申請(qǐng)(專利權(quán))人: | 北京擎盾信息科技有限公司 |
| 主分類號(hào): | G06N3/04 | 分類號(hào): | G06N3/04;G06N3/08;G06F18/214;G06F16/35;G06Q50/18 |
| 代理公司: | 北京知果之信知識(shí)產(chǎn)權(quán)代理有限公司 11541 | 代理人: | 蘇利 |
| 地址: | 100071 北京市豐臺(tái)區(qū)南四環(huán)西路1*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 大規(guī)模 訓(xùn)練 語(yǔ)言 模型 構(gòu)建 方法 裝置 存儲(chǔ) 介質(zhì) 電子 | ||
本申請(qǐng)公開(kāi)了一種大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的構(gòu)建方法、裝置、存儲(chǔ)介質(zhì)及電子裝置。該構(gòu)建方法包括:接收裁判文書;按不同法律領(lǐng)域?qū)λ霾门形臅M(jìn)行分類;對(duì)分類結(jié)果執(zhí)行預(yù)設(shè)的預(yù)處理并標(biāo)注操作,得到多個(gè)類別的裁判文書訓(xùn)練集;針對(duì)不同法律領(lǐng)域維護(hù)一個(gè)獨(dú)立的Prefix并基于所述裁判文書訓(xùn)練集對(duì)語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,得到針對(duì)特定法律領(lǐng)域的預(yù)訓(xùn)練語(yǔ)言模型。本申請(qǐng)解決了由于未考慮不同法律領(lǐng)域的文本之間的差異性造成的預(yù)訓(xùn)練語(yǔ)言模型無(wú)法有效識(shí)別不同領(lǐng)域的關(guān)鍵信息的技術(shù)問(wèn)題。
技術(shù)領(lǐng)域
本申請(qǐng)涉及法律文書處理領(lǐng)域,具體而言,涉及一種大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的構(gòu)建方法、裝置、存儲(chǔ)介質(zhì)及電子裝置。
背景技術(shù)
針對(duì)法律文本的預(yù)訓(xùn)練語(yǔ)言模型,哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布了針對(duì)法律領(lǐng)域的ELECTRA模型,該模型使用裁判文書數(shù)據(jù)對(duì)已有通用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行二次訓(xùn)練,并使用掩碼語(yǔ)言模型任務(wù)作為預(yù)訓(xùn)練任務(wù),在罪名預(yù)測(cè)下游任務(wù)的測(cè)試中取得了顯著的提升。
清華大學(xué)則進(jìn)一步考慮了法律文本通常包含數(shù)千個(gè)字符,遠(yuǎn)遠(yuǎn)超過(guò)通用文本的問(wèn)題,提出了針對(duì)法律長(zhǎng)文本的預(yù)訓(xùn)練語(yǔ)言模型Lawformer。該模型引入滑動(dòng)窗口機(jī)制,有效的緩解了預(yù)訓(xùn)練語(yǔ)言模型在處理長(zhǎng)文本時(shí)的長(zhǎng)程依賴問(wèn)題,并在多個(gè)下游任務(wù)中取得了顯著的性能提升。
但是,無(wú)論哪種模型均忽略了不同法律領(lǐng)域的文本之間的差異性,例如:離婚領(lǐng)域的法律文本與借貸領(lǐng)域的法律文本在基本事實(shí)、引用法條等方面均不相同,將不同領(lǐng)域的法律文本混合在一起進(jìn)行預(yù)訓(xùn)練將導(dǎo)致模型無(wú)法有效識(shí)別不同領(lǐng)域的關(guān)鍵信息。
針對(duì)相關(guān)技術(shù)中未考慮不同法律領(lǐng)域的文本之間的差異性造成的預(yù)訓(xùn)練語(yǔ)言模型無(wú)法有效識(shí)別不同領(lǐng)域的關(guān)鍵信息的問(wèn)題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本申請(qǐng)的主要目的在于提供一種大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的構(gòu)建方法、裝置、存儲(chǔ)介質(zhì)及電子裝置,以解決未考慮不同法律領(lǐng)域的文本之間的差異性造成的預(yù)訓(xùn)練語(yǔ)言模型無(wú)法有效識(shí)別不同領(lǐng)域的關(guān)鍵信息的問(wèn)題。
為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的構(gòu)建方法。
根據(jù)本申請(qǐng)的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的構(gòu)建方法包括:接收裁判文書;按不同法律領(lǐng)域?qū)λ霾门形臅M(jìn)行分類;對(duì)分類結(jié)果執(zhí)行預(yù)設(shè)的預(yù)處理并標(biāo)注操作,得到多個(gè)類別的裁判文書訓(xùn)練集;針對(duì)不同法律領(lǐng)域維護(hù)一個(gè)獨(dú)立的Prefix并基于所述裁判文書訓(xùn)練集對(duì)語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,得到針對(duì)特定法律領(lǐng)域的預(yù)訓(xùn)練語(yǔ)言模型。
進(jìn)一步的,對(duì)分類結(jié)果執(zhí)行預(yù)設(shè)的預(yù)處理操作包括:將分類后得到的多個(gè)類別的裁判文書分為當(dāng)事人信息、事實(shí)描述、法庭觀點(diǎn)和判決結(jié)果四個(gè)部分;篩選事實(shí)描述超過(guò)預(yù)設(shè)token閾值的裁判文書。
進(jìn)一步的,對(duì)分類結(jié)果執(zhí)行預(yù)設(shè)的標(biāo)注操作,得到多個(gè)類別的裁判文書訓(xùn)練集包括:基于啟發(fā)式規(guī)則對(duì)預(yù)處理后得到的裁判文書進(jìn)行自動(dòng)標(biāo)注,得到多個(gè)類別的裁判文書訓(xùn)練集。
進(jìn)一步的,對(duì)分類結(jié)果執(zhí)行預(yù)設(shè)的標(biāo)注操作,得到多個(gè)類別的裁判文書訓(xùn)練集包括:對(duì)預(yù)處理后得到的裁判文書進(jìn)行至少掩碼語(yǔ)言、段落類型和發(fā)條三種標(biāo)簽的標(biāo)注,得到多個(gè)類別的裁判文書訓(xùn)練集。
進(jìn)一步的,針對(duì)不同法律領(lǐng)域維護(hù)一個(gè)獨(dú)立的Prefix并基于所述裁判文書訓(xùn)練集進(jìn)行預(yù)訓(xùn)練,得到針對(duì)特定法律領(lǐng)域的預(yù)訓(xùn)練語(yǔ)言模型之后還包括:接收待識(shí)別裁判文書;將所述待識(shí)別裁判文書輸入針對(duì)特定法律領(lǐng)域的預(yù)訓(xùn)練語(yǔ)言模型,得到特定法律領(lǐng)域的關(guān)鍵信息。
進(jìn)一步的,所述預(yù)訓(xùn)練語(yǔ)言模型為利用Adam優(yōu)化的Longformer語(yǔ)言模型。
為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的另一方面,提供了一種大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的構(gòu)建裝置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京擎盾信息科技有限公司,未經(jīng)北京擎盾信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310268876.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語(yǔ)言環(huán)境設(shè)定方法
- 一種口語(yǔ)評(píng)測(cè)方法及裝置
- 一種語(yǔ)言設(shè)置方法及移動(dòng)終端
- 一種語(yǔ)言文本加載方法和裝置
- 一種語(yǔ)言交流人工智能系統(tǒng)及其語(yǔ)言處理方法
- 語(yǔ)言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語(yǔ)言包實(shí)現(xiàn)繼電保護(hù)裝置多語(yǔ)言版本方法及裝置
- 一種應(yīng)用軟件的多語(yǔ)言核對(duì)方法及系統(tǒng)
- 多語(yǔ)言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)





