[發(fā)明專利]一種依存句法分析關(guān)系抽取模型的司法案件知識(shí)圖譜構(gòu)建方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910706329.2 | 申請(qǐng)日: | 2019-08-01 |
| 公開(公告)號(hào): | CN110597999A | 公開(公告)日: | 2019-12-20 |
| 發(fā)明(設(shè)計(jì))人: | 陳建峽;張偉;黃煜俊;馬忠寶;張杰 | 申請(qǐng)(專利權(quán))人: | 湖北工業(yè)大學(xué) |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F17/27 |
| 代理公司: | 42220 武漢帥丞知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 劉丹;朱必武 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 依存句法分析 關(guān)系抽取 三元組 裁判 圖譜 取出 大規(guī)模語料庫 信息抽取技術(shù) 詞性標(biāo)注 非結(jié)構(gòu)化 命名實(shí)體 實(shí)體關(guān)系 司法案件 圖譜構(gòu)建 結(jié)構(gòu)化 可視化 分詞 構(gòu)建 數(shù)據(jù)庫 直觀 移植 轉(zhuǎn)換 便利 司法 展示 | ||
1.一種依存句法分析關(guān)系抽取模型的司法案件知識(shí)圖譜構(gòu)建方法,其特征在于,包括如下步驟:
步驟1,數(shù)據(jù)預(yù)處理,利用ProcessOn軟件把司法案件整理為兩大類,第一類是在司法案件中出現(xiàn)的涉案人身份,第二類是司法案件中的涉案種類,形成司法案件知識(shí)導(dǎo)圖;
步驟2,采用依存句法分析關(guān)系抽取模型對(duì)司法案件實(shí)體關(guān)系的抽取;
步驟3,司法案件中實(shí)體關(guān)系三元組構(gòu)建,主要包括四個(gè)過程,分別是判斷、抽取、篩選和整理;
步驟4,司法案件知識(shí)圖譜的構(gòu)建與可視化,抽取出來的實(shí)體關(guān)系三元組形成完整嚴(yán)謹(jǐn)?shù)闹R(shí)語言邏輯體系,成為司法案件知識(shí)圖譜的理論基礎(chǔ),通過定義實(shí)體與實(shí)體之間的關(guān)系,能夠定義涉案、種類、受理多種關(guān)系,憑借著各種關(guān)系,多個(gè)不同實(shí)體間的關(guān)系就能夠構(gòu)成一套容納司法案件中的實(shí)體與實(shí)體間關(guān)系的知識(shí)庫。
2.根據(jù)權(quán)利要求1所述的依存句法分析關(guān)系抽取模型的司法案件知識(shí)圖譜構(gòu)建方法,其特征在于,所述步驟2中對(duì)司法案件實(shí)體關(guān)系的抽取,包括:預(yù)處理和依存句法分析關(guān)系抽取模型,步驟2進(jìn)一步包括:
步驟2.1,首先要對(duì)司法案件文本進(jìn)行預(yù)處理,預(yù)處理包括三方面內(nèi)容,分別是:分詞、詞性標(biāo)注和命名實(shí)體識(shí)別;
步驟2.2,采用全局特征和聚類特征的依存句法分析關(guān)系抽取模型,找出句子中主要成分的依存關(guān)系。
3.根據(jù)權(quán)利要求2所述的依存句法分析關(guān)系抽取模型的司法案件知識(shí)圖譜構(gòu)建方法,其特征在于,所述步驟2.2中依存句法分析關(guān)系抽取模型,包括:特征向量輸入、類型轉(zhuǎn)換和循環(huán),步驟2.2進(jìn)一步包括:
步驟2.2.1,輸入特征向量,其中包括:當(dāng)前移位操作時(shí)棧和buffer中的部分詞匯以及棧中部分單詞的依賴單詞;上述單詞的詞性和上述依賴單詞的依賴關(guān)系;
步驟2.2.2,預(yù)測(cè)出對(duì)應(yīng)的轉(zhuǎn)換類型,進(jìn)行相應(yīng)的轉(zhuǎn)換操作,更新配置信息,然后得到新的特征向量;
步驟2.2.3,將新的特征向量再輸入模型中預(yù)測(cè),如此循環(huán),最后就能得到依存弧集合找出句子中主要成分的依存關(guān)系。
4.根據(jù)權(quán)利要求1所述的依存句法分析關(guān)系抽取模型的司法案件知識(shí)圖譜構(gòu)建方法,其特征在于,所述步驟3中對(duì)司法案件構(gòu)建實(shí)體關(guān)系三元組,包括四個(gè)過程,分別是判斷、抽取、篩選和整理,步驟3進(jìn)一步包括:
步驟3.1,判斷,判斷句子中是否有兩個(gè)實(shí)體,并且判斷以兩個(gè)實(shí)體為基礎(chǔ)的依存句法分析的內(nèi)容集合是否具有實(shí)體之間的關(guān)系;
步驟3.2,抽取,將已判定為實(shí)體間的關(guān)系和兩個(gè)實(shí)體抽取出來,并且以實(shí)體,關(guān)系,實(shí)體的三元組形式保存;
步驟3.3,篩選,抽取出來的實(shí)體關(guān)系三元組并不是一定有效的,所以需要去除不必要的三元組,篩選出高質(zhì)量的有效三元組;
步驟3.4,整理,篩選之后的三元組具有重復(fù)性,雖然都是有效三元組,但是都表達(dá)一個(gè)意思的三元組只需要存在一個(gè),同時(shí),三元組也需要分類,三元組有部分描述人物關(guān)系,也有部分描述機(jī)構(gòu)和地名實(shí)體關(guān)系,需要將所抽取和篩選的三元組進(jìn)行分類整理。
5.根據(jù)權(quán)利要求4所述的依存句法分析關(guān)系抽取模型的司法案件知識(shí)圖譜構(gòu)建方法,其特征在于,進(jìn)一步地,所述步驟3.2中實(shí)體關(guān)系三元組的構(gòu)建,包括采用三種方式,步驟3.2進(jìn)一步包括:
步驟3.2.1,以依賴于實(shí)體的描述詞語作為關(guān)系詞的三元組;
步驟3.2.2,以“主謂賓”、“主系表”形式產(chǎn)生的三元組;
步驟3.2.3,以描述實(shí)體的關(guān)系詞和“主謂賓”形式相結(jié)合的三元組。
6.根據(jù)權(quán)利要求4所述的依存句法分析關(guān)系抽取模型的司法案件知識(shí)圖譜構(gòu)建方法,其特征在于,所述步驟3.3中篩選模型具有兩個(gè)要求限制,步驟3.3進(jìn)一步包括:
步驟3.3.1,實(shí)體關(guān)系三元組中的實(shí)體與關(guān)系詞必須為文本所需要的;
步驟3.3.2,實(shí)體關(guān)系三元組中的關(guān)系能夠描述兩個(gè)實(shí)體之間的關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖北工業(yè)大學(xué),未經(jīng)湖北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910706329.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 依存映射方法及系統(tǒng)
- 依存句法分析方法、裝置及輔助分類器訓(xùn)練方法
- 基于遷移學(xué)習(xí)的緬甸語依存句法分析方法及裝置
- 一種話術(shù)泛化方法、話術(shù)識(shí)別方法、裝置及電子設(shè)備
- 基于依存句法的復(fù)述句識(shí)別方法、設(shè)備和可讀存儲(chǔ)介質(zhì)
- 基于依存句法的句子時(shí)態(tài)識(shí)別方法、設(shè)備和可讀存儲(chǔ)介質(zhì)
- 基于依存句法的句子主干抽取方法、設(shè)備和可讀存儲(chǔ)介質(zhì)
- 一種融合短語先驗(yàn)知識(shí)的依存句法分析方法及裝置
- 一種文本依存句法分析方法
- 藏語依存句法分析方法與系統(tǒng)
- 用戶關(guān)系抽取方法和用戶關(guān)系抽取系統(tǒng)
- 一種基于實(shí)體關(guān)系聯(lián)合抽取模型的多三元組抽取方法
- 一種基于增強(qiáng)學(xué)習(xí)的關(guān)系抽取方法
- 一種基于深度學(xué)習(xí)的數(shù)據(jù)實(shí)體關(guān)系抽取方法
- 信息抽取模型的訓(xùn)練方法、裝置及信息抽取方法、裝置
- 一種基于課程學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法
- 電子病歷數(shù)據(jù)中實(shí)體關(guān)系抽取方法、裝置及系統(tǒng)
- 關(guān)系抽取模型的建立方法以及關(guān)系抽取方法
- 基于新聞事件的關(guān)系分析方法及裝置
- 一種基于多層LSTM的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系聯(lián)合抽取方法和系統(tǒng)
- 一種保護(hù)敏感資源描述框架數(shù)據(jù)的方法、裝置及系統(tǒng)
- 一種存儲(chǔ)資源描述框架數(shù)據(jù)的方法和裝置
- 采用知識(shí)圖譜推薦供求信息的方法和裝置
- 知識(shí)圖譜表示學(xué)習(xí)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 三元組獲取方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語義行業(yè)術(shù)語
- 基于碎片化知識(shí)下的卷積嵌入表示推理方法
- 三元組預(yù)測(cè)模型生成方法、關(guān)系三元組提取方法和裝置
- 基于結(jié)構(gòu)化上下文信息的知識(shí)圖譜預(yù)訓(xùn)練方法
- 一種結(jié)合命名實(shí)體識(shí)別的開放域信息抽取方法





