[發明專利]一種基于機器閱讀理解的起訴狀信息抽取方法及系統有效
| 申請號: | 202010550140.1 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111444678B | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 翁洋;王竹;李鑫;其他發明人請求不公開姓名 | 申請(專利權)人: | 四川大學;成都數之聯科技有限公司 |
| 主分類號: | G06F40/117 | 分類號: | G06F40/117;G06F40/30;G06K9/20;G06N3/04;G06N3/08;G06Q50/18 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 張超 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 閱讀 理解 起訴狀 信息 抽取 方法 系統 | ||
1.一種基于機器閱讀理解的起訴狀信息抽取方法,其特征在于,包括以下步驟:
S1:標注起訴狀樣本集得到三元樣本集;所述三元樣本集中每個元素均為一個三元組;所述三元組包括文檔、問題和答案;
S2:從三元樣本集中提取訓練集,并將訓練集輸入預訓練模型得到起訴狀向量序列X;
S3:利用篇章段落向量嵌入算法Doc2Vec將裁判文書樣本集中每一個樣本均嵌入成向量,得到文書向量序列Y;所述裁判文書樣本集中樣本的類型與所述起訴狀樣本集中樣本的類型相同;
S4:根據所述起訴狀向量序列X中起訴狀向量的個數選取文書向量序列Y中的文書向量,聚合選取出的文書向量與起訴狀向量序列X中的起訴狀向量得到最終向量Z;
S5:將最終向量Z輸入預訓練模型,并將預訓練模型的最終隱藏狀態轉換為答案跨度的概率,生成最終模型;
S6:將需要抽取信息的起訴狀輸入最終模型抽取起訴狀信息。
2.根據權利要求1所述的一種基于機器閱讀理解的起訴狀信息抽取方法,其特征在于,步驟S1包括以下子步驟:
歸類處理需要提取的信息;
將需要提取的信息的上下文篇章對應為文檔,并根據需要提取的信息的類型在文檔中設置問題和問題對應的答案;
利用文檔、問題和答案生成三元組。
3.根據權利要求1所述的一種基于機器閱讀理解的起訴狀信息抽取方法,其特征在于,步驟S2包括以下子步驟:
對三元樣本集中每個元素中的問題添加第一標記;
連接問題與問題對應的段落,并在問題和段落之間添加第二標記;
將添加了第一標記和第二標記的元素通過token Embedding、segment embedding 和positional embedding輸入預訓練模型;
預訓練模型根據第一標記和第二標記將token Embedding、segment embedding 和positional embedding的聚合向量表示為序列X。
4.根據權利要求1所述的一種基于機器閱讀理解的起訴狀信息抽取方法,其特征在于,步驟S5包括以下子步驟:
利用softmax函數將所述預訓練模型的最終隱藏狀態轉換為答案跨度的概率。
5.根據權利要求1所述的一種基于機器閱讀理解的起訴狀信息抽取方法,其特征在于,所述三元樣本集還包括驗證集和測試集;
步驟S2還包括以下子步驟:
將訓練集輸入預訓練模型得到起訴狀向量序列X時,利用驗證集驗證預訓練模型的結果,并利用測試集測試預訓練模型的結果。
6.一種基于機器閱讀理解的起訴狀信息抽取系統,其特征在于,包括:
樣本集標注單元:用于標注起訴狀樣本集得到三元樣本集;所述三元樣本集中每個元素均為一個三元組;所述三元組包括文檔、問題和答案;
模型訓練單元:用于從三元樣本集中提取訓練集,并將訓練集輸入預訓練模型得到起訴狀向量序列X;
文書向量序列單元:用于利用篇章段落向量嵌入算法Doc2Vec將裁判文書樣本集中每一個樣本均嵌入成向量,得到文書向量序列Y;所述裁判文書樣本集中樣本的類型與所述起訴狀樣本集中樣本的類型相同;
向量聚和單元:用于根據所述起訴狀向量序列X中起訴狀向量的個數選取文書向量序列Y中的文書向量,聚合選取出的文書向量與起訴狀向量序列X中的起訴狀向量得到最終向量Z;
最終模型生成單元:用于將最終向量Z輸入預訓練模型,并將預訓練模型的最終隱藏狀態轉換為答案跨度的概率,生成最終模型;
信息抽取單元:用于將需要抽取信息的起訴狀輸入最終模型抽取起訴狀信息。
7.根據權利要求6所述的一種基于機器閱讀理解的起訴狀信息抽取系統,其特征在于,樣本集標注單元歸類處理需要提取的信息;
樣本集標注單元將需要提取的信息的上下文篇章對應為文檔,并根據需要提取的信息的類型在文檔中設置問題和問題對應的答案;
樣本集標注單元利用文檔、問題和答案生成三元組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學;成都數之聯科技有限公司,未經四川大學;成都數之聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010550140.1/1.html,轉載請聲明來源鉆瓜專利網。





