[發(fā)明專利]一種自動生成法律文本標記事件的方法有效
| 申請?zhí)枺?/td> | 202110058260.4 | 申請日: | 2021-01-16 |
| 公開(公告)號: | CN112733507B | 公開(公告)日: | 2023-06-09 |
| 發(fā)明(設(shè)計)人: | 蘭莉;周振東 | 申請(專利權(quán))人: | 江蘇網(wǎng)進科技股份有限公司 |
| 主分類號: | G06F40/169 | 分類號: | G06F40/169;G06F40/211;G06F40/247;G06F40/289;G06Q50/18 |
| 代理公司: | 蘇州佳博知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32342 | 代理人: | 唐毅 |
| 地址: | 215300 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 自動 生成 法律 文本 標記 事件 方法 | ||
本發(fā)明公開了一種自動生成法律文本標記事件的方法,其包括輸入初始的法律文本數(shù)據(jù)進行預(yù)處理,識別事件的觸發(fā)詞、事件的參數(shù)、事件類型;根據(jù)識別的事件參數(shù)與事件類型,使用GPT模型獲取新的事件參數(shù);根據(jù)識別的觸發(fā)詞與事件類型,通過BERT模型生成新的觸發(fā)詞;根據(jù)新的觸發(fā)詞與新的事件參數(shù),生成新的法律文本標記事件;對新的法律文本標記事件進行評價;從評價完成的法律文本標記事件中選出評價符合標準的法律文本標記事件。通過替換參數(shù)和觸發(fā)詞的方法來生成新的標記事件,僅需要較少的初始法律文本數(shù)據(jù)即可自動生成大量的事件,避免了由于事件量不足造成的模型精確度不高的情況。
技術(shù)領(lǐng)域
本發(fā)明涉及用于法律文本處理領(lǐng)域,尤其涉及一種自動生成法律文本標記事件的方法。
背景技術(shù)
在法律文本事件抽取的模型訓(xùn)練中,為了訓(xùn)練出一個質(zhì)量較為精確的模型,需要大量的已經(jīng)標注好的事件數(shù)據(jù)集讓模型進行機器學(xué)習,以此加強模型在事件抽取中的精確性。
以往使用的標注法律事件數(shù)據(jù)集,通常依賴于人為標注的法律事件,不僅需要耗費大量的時間與人力物力,標注的法律事件數(shù)量也不大。
本發(fā)明提供一種自動生成法律文本標記事件的方法解決上述人為標準的問題。
發(fā)明內(nèi)容
為克服上述問題,本發(fā)明目的在于,提供一種自動生成法律文本標記事件的方法,以解決人為標注事件數(shù)據(jù)量不足,標注事件標注不一致的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種自動生成法律文本標記事件的方法,其包括輸入初始的法律文本數(shù)據(jù)進行預(yù)處理,識別事件的觸發(fā)詞、事件的參數(shù)、事件類型;根據(jù)識別的事件參數(shù)與事件類型,使用GPT模型獲取新的事件參數(shù);根據(jù)識別的觸發(fā)詞與事件類型,通過BERT模型生成新的觸發(fā)詞;根據(jù)新的觸發(fā)詞與新的事件參數(shù),生成新的法律文本標記事件;對新的法律文本標記事件進行評價;從評價完成的法律文本標記事件中選出評價符合標準的法律文本標記事件。
針對新的法律文本標記事件進行評價,其步驟包括:
(1)獲取生成標記事件的合理性R(S′),具體滿足:
其中,R(S')表示新生成標記事件S′的合理性分數(shù),S′表示重寫過的句子,P(t)表示重寫事件參數(shù)t的概率,A(S')表示在句子S′中調(diào)整過后的新的事件參數(shù);
(2)獲取生成的標記事件和原有的標記事件之間的偏差度D(S′),具體滿足:
其中,D(S')表示重寫過的句子與原有句子之間的偏差度,D表示原有的數(shù)據(jù)集,B(S)生成標記事件句子的元素集合的特征向量化處理,B(S’)表示原有標記事件句子的元素集合的特征向量化處理,||表示對向量化后的文本進行取模操作;
(3)根據(jù)所述生成標記事件的合理性與偏差度計算最終標記事件的評價分數(shù),評價分數(shù)Q(S′)滿足:Q(S′)=1-((1-λ)R(S′)+λD(S′))其中,Q(S')為新生成標記事件S'的評價分數(shù),μ、λ為自定義的平衡調(diào)節(jié)參,數(shù)。
與現(xiàn)有技術(shù)相比,本發(fā)明一種自動生成法律文本標記事件的方法的有益效果在于,根據(jù)初始定義的事件類型生成相同類型的標記事件,確保了事件類型的一致性,避免了人工標注事件所帶來的不一致性。通過替換參數(shù)和觸發(fā)詞的方法來生成新的標記事件,僅需要較少的初始法律文本數(shù)據(jù)即可自動生成大量的事件,避免了由于事件量不足造成的模型精確度不高的情況。能夠自動生成標記事件,與傳統(tǒng)的人工標記事件方法相比,減少了大量的人力與時間,能夠高效的為模型提供可靠的訓(xùn)練數(shù)據(jù)集。
附圖說明
圖1為本發(fā)明自動生成法律文本標記事件的方法的流程示意圖;
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇網(wǎng)進科技股份有限公司,未經(jīng)江蘇網(wǎng)進科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110058260.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





