[發(fā)明專利]一種基于規(guī)則與預(yù)訓(xùn)練語言模型的文書自動分析方法在審

申請?zhí)枺?/td>	202211101975.4	申請日：	2022-09-09
公開（公告）號：	CN115470776A	公開（公告）日：	2022-12-13
發(fā)明（設(shè)計）人：	閻星娥;楊昆;張林;劉慰慰;嚴榮明;袁勇斌;薛世峰	申請（專利權(quán)）人：	南京華飛數(shù)據(jù)技術(shù)有限公司
主分類號：	G06F40/258	分類號：	G06F40/258;G06F40/242;G06F40/279;G06F16/33;G06Q50/18
代理公司：	南京品智知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32310	代理人：	奚曉寧
地址：	210019 江蘇省南京市建鄴***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于規(guī)則訓(xùn)練語言模型文書自動分析方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于規(guī)則與預(yù)訓(xùn)練語言表征模型的文書自動分析方法，其特征在于，包括如下步驟：

S1、采用讀取文書存儲數(shù)據(jù)庫的方式獲得待分析文書的文書標(biāo)題和文書正文；

S2、針對步驟S1得到的文書標(biāo)題展開分析，抽取出事由、事件類型、辦理程序、文書類型的相關(guān)信息；

S3、針對步驟S1得到的文書正文展開分析，抽取出辦理單位、事件號、涉事人員及身份、申辦時間、申辦文書號、事件事實、辦理依據(jù)、辦理結(jié)果、辦理日期以及辦理人員的相關(guān)信息；

S4、針對步驟S3得到的事件事實展開分析，抽取出事件演化的時空軌跡信息；

S5、基于預(yù)訓(xùn)練語言表征模型對文書正文展開分析，抽取出文書中的人物關(guān)系信息；

S6、將以上抽取得到的信息存入文書分析結(jié)果數(shù)據(jù)庫。

2.根據(jù)權(quán)利要求1所述的基于規(guī)則與預(yù)訓(xùn)練語言表征模型的文書自動分析方法，其特征在于，步驟S2的具體分析過程，包括如下步驟：

S2-1、通過查找相關(guān)資料，構(gòu)建文書的事由字典；基于事由字典對文書標(biāo)題進行匹配，進而得到待分析文書的事由信息；

S2-2、通過分別構(gòu)建匹配規(guī)則，得到待分析文書的事件類型、辦理程序、文書類型的相關(guān)信息。

3.根據(jù)權(quán)利要求1所述的基于規(guī)則與預(yù)訓(xùn)練語言表征模型的文書自動分析方法，其特征在于，步驟S3的具體分析過程，包括如下步驟：

S3-1、通過分別構(gòu)建匹配規(guī)則，得到待分析文書的辦理單位、事件號、申辦時間、申辦文書號、辦理日期的相關(guān)信息；

S3-2、構(gòu)建文書的事件手段字典及事件結(jié)果字典，通過字典對文書正文進行匹配，進而得到待分析文書的事件手段信息與事件結(jié)果種類；

S3-3、通過構(gòu)建涉事人員規(guī)則庫，抽取出申請辦理人、被申請辦理人等涉事人員的身份信息；在此基礎(chǔ)上，通過進一步制定相關(guān)規(guī)則，提取出相關(guān)人員的詳細個人信息和以及相關(guān)單位信息；

S3-4、通過構(gòu)建事件事實規(guī)則庫，抽取出待分析文書的事件事實信息；在此基礎(chǔ)上，通過進一步制定相關(guān)規(guī)則，提取出涉事金額與相關(guān)損失的信息；

S3-5、通過構(gòu)建辦理依據(jù)規(guī)則庫，抽取出待分析文書的辦理依據(jù)信息；

S3-6、通過構(gòu)建辦理結(jié)果規(guī)則庫，抽取出待分析文書的辦理結(jié)果信息；在此基礎(chǔ)上，通過構(gòu)建辦理類型字典，進一步得到辦理類型信息；通過制定相關(guān)規(guī)則，進一步提取出辦理方式信息；

S3-7、基于hanlp對文書正文的末句進行分詞，在此基礎(chǔ)上構(gòu)建辦理人員規(guī)則庫，抽取出包括監(jiān)辦人和記錄員的相關(guān)信息。

4.根據(jù)權(quán)利要求3所述的基于規(guī)則與預(yù)訓(xùn)練語言表征模型的文書自動分析方法，其特征在于，步驟S3-3所述的個人信息包括姓名和性別；相關(guān)單位信息包括單位名稱和單位地址。

5.根據(jù)權(quán)利要求1所述的基于規(guī)則與預(yù)訓(xùn)練語言表征模型的文書自動分析方法，其特征在于，步驟S4的具體分析過程，包括如下步驟：

S4-1、對步驟S3-4得到的事件事實信息以句子為單位進行切分；

S4-2、根據(jù)切分后的句子中是否出現(xiàn)新的時間節(jié)點對分句進行拼接，抽取出基于時間節(jié)點的事件演化時空軌跡信息。

6.根據(jù)權(quán)利要求1所述的基于規(guī)則與預(yù)訓(xùn)練語言表征模型的文書自動分析方法，其特征在于，步驟S5的具體分析過程，包括如下步驟：

S5-1、基于hanlp對文書正文進行詞性標(biāo)注，得到待分析文書的人名集合以及包含人名的句子列表；

S5-2、基于預(yù)訓(xùn)練語言表征模型對步驟S5-1得到的列表中的句子進行分析，得到每個句子中的人物關(guān)系信息；

S5-3、基于投票機制對每個人物對的關(guān)系進行統(tǒng)計分析，得到人物對的最終關(guān)系類型，進而得到待分析文書的人物關(guān)系信息。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京華飛數(shù)據(jù)技術(shù)有限公司，未經(jīng)南京華飛數(shù)據(jù)技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202211101975.4/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】