[發(fā)明專利]聯(lián)合罪名預(yù)測的涉案新聞重疊實(shí)體關(guān)系抽取方法有效
| 申請?zhí)枺?/td> | 202011269272.3 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112905713B | 公開(公告)日: | 2022-06-14 |
| 發(fā)明(設(shè)計)人: | 余正濤;張明芳;郭軍軍;黃于欣;高盛祥;線巖團(tuán) | 申請(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/951;G06F40/211;G06F40/295;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 昆明人從眾知識產(chǎn)權(quán)代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聯(lián)合 罪名 預(yù)測 涉案 新聞 重疊 實(shí)體 關(guān)系 抽取 方法 | ||
本發(fā)明涉及聯(lián)合罪名預(yù)測的涉案新聞重疊實(shí)體關(guān)系抽取方法,屬于自然語言處理技術(shù)領(lǐng)域。本發(fā)明首先預(yù)測涉案新聞所描述的案件的罪名,然后將罪名向量融入到關(guān)系分類的狀態(tài)向量中,實(shí)現(xiàn)重疊實(shí)體關(guān)系抽取,另外,為了緩解因聯(lián)合罪名預(yù)測而給重疊實(shí)體關(guān)系抽取帶來的錯誤傳播問題,本發(fā)明引入一種分層級聯(lián)強(qiáng)化學(xué)習(xí)機(jī)制,將整個過程分解為罪名預(yù)測層和重疊實(shí)體關(guān)系抽取層,利用罪名指導(dǎo)重疊實(shí)體關(guān)系抽取,幫助重疊實(shí)體關(guān)系抽取層優(yōu)化強(qiáng)化學(xué)習(xí)策略。并將重疊實(shí)體關(guān)系抽取結(jié)果反饋給罪名預(yù)測層幫助罪名預(yù)測層優(yōu)化強(qiáng)化學(xué)習(xí)策略。實(shí)驗(yàn)結(jié)果表明,該方法是實(shí)驗(yàn)過程中獲得的一個最優(yōu)的技術(shù)方案,在涉案新聞數(shù)據(jù)集上,F(xiàn)1指標(biāo)達(dá)到了86.5%。
技術(shù)領(lǐng)域
本發(fā)明涉及聯(lián)合罪名預(yù)測的涉案新聞重疊實(shí)體關(guān)系抽取方法,屬于自然語言處理技術(shù)領(lǐng)域。
背景技術(shù)
涉案新聞實(shí)體關(guān)系抽取作為司法領(lǐng)域信息抽取的重要組成部分,是構(gòu)建案件知識圖譜的基礎(chǔ)。相比通用領(lǐng)域,涉案新聞中實(shí)體是指被告人、被害人和作案地點(diǎn)等與案件相關(guān)的人名、地名、機(jī)構(gòu)名,關(guān)系是這些實(shí)體之間的相互聯(lián)系。在涉案新聞句級文本中,普遍存在一個以上的關(guān)系,并且不同關(guān)系的關(guān)聯(lián)實(shí)體有重復(fù),這類關(guān)系被稱作重疊實(shí)體關(guān)系。目前的實(shí)體關(guān)系抽取局限于單實(shí)體關(guān)系抽取,即只能抽取出一個句子中存在的兩個實(shí)體和實(shí)體之間的關(guān)系,忽略了句子中大量存在的重疊實(shí)體關(guān)系,且在涉案新聞文本中,只抽取出單關(guān)系對于知識圖譜的構(gòu)建遠(yuǎn)遠(yuǎn)不夠,并且準(zhǔn)確抽取出所有的重疊實(shí)體關(guān)系比較困難。因此利用人工智能技術(shù)自動抽取出重疊實(shí)體關(guān)系對涉案新聞實(shí)體關(guān)系抽取研究意義重大。
發(fā)明內(nèi)容
本發(fā)明提供了聯(lián)合罪名預(yù)測的涉案新聞重疊實(shí)體關(guān)系抽取方法,以解決目前重疊實(shí)體關(guān)系抽取傳統(tǒng)的方法中,存在誤導(dǎo)關(guān)系分類和實(shí)體識別的詞,使關(guān)系指示符定位不準(zhǔn)確問題。
本發(fā)明的技術(shù)方案是:聯(lián)合罪名預(yù)測的涉案新聞重疊實(shí)體關(guān)系抽取方法,所述方法包括:
Step1、收集用于預(yù)測罪名和抽取重疊實(shí)體關(guān)系的涉案新聞文本,對爬取的文本進(jìn)行分句、去重、篩選;
作為本發(fā)明的優(yōu)選方案,所述Step1中,使用Scrapy作為爬取工具,根據(jù)頁面數(shù)據(jù)元素的XPath路徑制定模板獲取詳細(xì)數(shù)據(jù),獲取涉案新聞網(wǎng)站正文數(shù)據(jù)。
此優(yōu)選方案設(shè)計是本發(fā)明的重要組成部分,主要為本發(fā)明收集語料過程,為本發(fā)明預(yù)測罪名和抽取重疊實(shí)體關(guān)系提供了數(shù)據(jù)支撐。
Step2、定制聯(lián)合罪名預(yù)測的涉案新聞重疊實(shí)體關(guān)系抽取的標(biāo)注體系,標(biāo)記出罪名和實(shí)體關(guān)系,將標(biāo)記好的涉案新聞句子級語料按照8:1:1分為訓(xùn)練語料、開發(fā)語料、驗(yàn)證語料;
Step3、獲取涉案新聞字級向量和句級文本向量;
Step4、采用強(qiáng)化學(xué)習(xí)的方法,由涉案新聞句級文本向量經(jīng)過最大池化后,利用softmax分類器獲取涉案新聞句級文本的罪名類別;
Step5、采用強(qiáng)化學(xué)習(xí)的方法,由預(yù)測出的罪名類別指導(dǎo)定位關(guān)系指示符抽取關(guān)系,罪名向量參與的當(dāng)前關(guān)系分類向量經(jīng)過softmax分類器獲得當(dāng)前的關(guān)系分類結(jié)果;
Step6、將實(shí)體識別任務(wù)抽象為給每一個字預(yù)測實(shí)體類別標(biāo)簽,采用強(qiáng)化學(xué)習(xí)的方法,依照抽取出的關(guān)系,由預(yù)測出的罪名類別指導(dǎo)實(shí)體識別,罪名分類向量參與的當(dāng)前實(shí)體標(biāo)簽預(yù)測的向量經(jīng)過softmax分類器獲得當(dāng)前字的標(biāo)簽類別結(jié)果;
Step7、根據(jù)強(qiáng)化學(xué)習(xí)的獎勵分別優(yōu)化整個模型的強(qiáng)化學(xué)習(xí)策略,即優(yōu)化三個任務(wù)對應(yīng)的softmax分類器的參數(shù)。
作為本發(fā)明的優(yōu)選方案,所述Step2中的具體步驟為:
Step2.1、將罪名分為三種類型和不存在罪名,將實(shí)體關(guān)系分為七種類型。根據(jù)任務(wù)的需求,定制聯(lián)合罪名預(yù)測的涉案新聞重疊實(shí)體關(guān)系抽取的標(biāo)注體系,分別針對罪名、實(shí)體關(guān)系、實(shí)體關(guān)系的關(guān)聯(lián)實(shí)體對進(jìn)行標(biāo)注。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011269272.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:聚酰亞胺-聚亞芳基聚合物
- 下一篇:制造具有同步孔隙的裝飾板的方法
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 中繼網(wǎng)絡(luò)中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 便攜信息終端、以及便攜信息終端的控制方法
- 電法與地震同步聯(lián)合反演方法及系統(tǒng)
- 銀行聯(lián)合放款的放款方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 一種基于自主學(xué)習(xí)群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 一種基于多目標(biāo)種群群搜索算法的聯(lián)合調(diào)度方法及系統(tǒng)
- 聯(lián)合貸款中的罰息與利息結(jié)算方法、裝置、介質(zhì)和設(shè)備
- 一種基坑支護(hù)用H型鋼構(gòu)件
- 用于云環(huán)境的語義元聯(lián)合代理
- 罪名及法條預(yù)測模型的訓(xùn)練方法以及罪名及法條預(yù)測方法
- 犯罪定罪預(yù)測方法、系統(tǒng)、存儲介質(zhì)及服務(wù)器
- 法律數(shù)據(jù)處理方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 信息抽取方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 一種基于序列增強(qiáng)膠囊網(wǎng)絡(luò)的刑事案件罪名預(yù)測方法
- 一種分級神經(jīng)網(wǎng)絡(luò)的案件情節(jié)精準(zhǔn)量刑系統(tǒng)
- 一種利用基于多層注意力的序列生成網(wǎng)絡(luò)進(jìn)行多罪名預(yù)測的方法
- 一種刑事法律文書罪名的推薦方法和系統(tǒng)
- 一種基于機(jī)器學(xué)習(xí)的案件罪名推斷方法
- 判決預(yù)測方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時間序列預(yù)測模型適用性量化的預(yù)測模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測方法及裝置、預(yù)測模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測的方法及裝置
- 圖像預(yù)測方法及裝置、電子設(shè)備和存儲介質(zhì)
- 文本預(yù)測方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)





