[發(fā)明專利]一種基于自然語(yǔ)言處理的文檔自動(dòng)生成方法和系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201810928628.6 | 申請(qǐng)日: | 2018-08-15 |
| 公開(公告)號(hào): | CN109190098A | 公開(公告)日: | 2019-01-11 |
| 發(fā)明(設(shè)計(jì))人: | 姚毅 | 申請(qǐng)(專利權(quán))人: | 上海唯識(shí)律簡(jiǎn)信息科技有限公司 |
| 主分類號(hào): | G06F17/24 | 分類號(hào): | G06F17/24;G06F17/27;G06F16/36 |
| 代理公司: | 上海專利商標(biāo)事務(wù)所有限公司 31100 | 代理人: | 施浩 |
| 地址: | 200120 上海市浦東*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 結(jié)構(gòu)化數(shù)據(jù) 自動(dòng)生成 自然語(yǔ)言處理 原始文檔 中間數(shù)據(jù) 文檔 知識(shí)庫(kù)構(gòu)建 輸出 報(bào)告文檔 分詞處理 關(guān)系抽取 目標(biāo)文檔 實(shí)體識(shí)別 文檔類型 文檔模板 文檔組裝 專業(yè)領(lǐng)域 自動(dòng)分類 抽取 數(shù)據(jù)庫(kù) 取出 分類 | ||
本發(fā)明公開了一種基于自然語(yǔ)言處理的文檔自動(dòng)生成方法和系統(tǒng),可自動(dòng)生成專業(yè)領(lǐng)域的報(bào)告文檔。其技術(shù)方案為:對(duì)輸入的原始文檔進(jìn)行自動(dòng)分類,基于不同分類的原始文檔進(jìn)行對(duì)應(yīng)處理,分別得到中間數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù);對(duì)中間數(shù)據(jù)進(jìn)行分詞處理、實(shí)體識(shí)別、關(guān)系抽取、事件抽取和知識(shí)庫(kù)構(gòu)建,抽取出的數(shù)據(jù)作為結(jié)構(gòu)化數(shù)據(jù)存入數(shù)據(jù)庫(kù);根據(jù)輸出的文檔類型選擇文檔模板,結(jié)合獲取到的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文檔組裝,輸出最終的目標(biāo)文檔。
技術(shù)領(lǐng)域
本發(fā)明涉及文檔自動(dòng)生成領(lǐng)域,具體涉及法律分析方面的文檔自動(dòng)生成技術(shù)。
背景技術(shù)
在法律領(lǐng)域中,律師常常需要審閱大量文檔,包括法人主體情況、股權(quán)結(jié)構(gòu)、營(yíng)業(yè)范圍、業(yè)務(wù)許可、重大資產(chǎn)和業(yè)務(wù)合同、訴訟/仲裁情況等,通過(guò)現(xiàn)場(chǎng)調(diào)查、訪談等方法確定情況,進(jìn)而撰寫生成相應(yīng)的法律報(bào)告,提供決策分析。
法律從業(yè)人員的分析報(bào)告需要人工分析法人主體情況、股權(quán)結(jié)構(gòu)、營(yíng)業(yè)范圍、業(yè)務(wù)許可、重大資產(chǎn)和業(yè)務(wù)合同、訴訟/仲裁情況等各種文件資料,通過(guò)現(xiàn)場(chǎng)調(diào)查、訪問(wèn)等方法確認(rèn)情況,手工整理提煉出關(guān)鍵信息,生成所需結(jié)論報(bào)告。該方法依賴法律從業(yè)人員多年的行業(yè)經(jīng)驗(yàn)積累,難以規(guī)模化應(yīng)用到全領(lǐng)域信息,具備較高的學(xué)習(xí)泛化門檻。
發(fā)明內(nèi)容
以下給出一個(gè)或多個(gè)方面的簡(jiǎn)要概述以提供對(duì)這些方面的基本理解。此概述不是所有構(gòu)想到的方面的詳盡綜覽,并且既非旨在指認(rèn)出所有方面的關(guān)鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡(jiǎn)化形式給出一個(gè)或多個(gè)方面的一些概念以為稍后給出的更加詳細(xì)的描述之序。
本發(fā)明的目的在于解決上述問(wèn)題,提供了一種基于自然語(yǔ)言處理的文檔自動(dòng)生成方法和系統(tǒng),可自動(dòng)生成專業(yè)領(lǐng)域的報(bào)告文檔(例如自動(dòng)生成具有初級(jí)法律行業(yè)分析人員能力的智能法律報(bào)告)。
本發(fā)明的技術(shù)方案為:本發(fā)明揭示了一種基于自然語(yǔ)言處理的文檔自動(dòng)生成方法,包括:
步驟1:對(duì)輸入的原始文檔進(jìn)行自動(dòng)分類,基于不同分類的原始文檔進(jìn)行對(duì)應(yīng)處理,分別得到中間數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù);
步驟2:對(duì)中間數(shù)據(jù)進(jìn)行分詞處理、實(shí)體識(shí)別、關(guān)系抽取、事件抽取和知識(shí)庫(kù)構(gòu)建,抽取出的數(shù)據(jù)作為結(jié)構(gòu)化數(shù)據(jù)存入數(shù)據(jù)庫(kù);
步驟3:根據(jù)輸出的文檔類型選擇文檔模板,結(jié)合獲取到的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文檔組裝,輸出最終的目標(biāo)文檔。
根據(jù)本發(fā)明的基于自然語(yǔ)言處理的文檔自動(dòng)生成方法的一實(shí)施例,步驟1進(jìn)一步包括:
確定數(shù)據(jù)獲取需求;
根據(jù)輸入的原始文檔,獲取每個(gè)原始文檔的文件類型,進(jìn)而可以區(qū)分出各種不同種類的原始文檔;
判斷是否為圖片文檔,若不是圖片文檔則先對(duì)原始文檔進(jìn)行圖片化處理再進(jìn)行后續(xù)步驟,若為圖片文檔則直接進(jìn)行后續(xù)步驟;
基于圖像處理進(jìn)行文檔分類;
根據(jù)文檔分類判斷文檔是否為固定格式的文檔,如果是固定格式的文檔則基于機(jī)器學(xué)習(xí)對(duì)固定格式文檔進(jìn)行信息提取得到結(jié)構(gòu)化數(shù)據(jù),如果不是固定格式的文檔則進(jìn)行后續(xù)步驟;
判斷文檔是否支持文本直接提取,如果支持文本直接提取則從原始文檔中獲取其中的文本內(nèi)容并存儲(chǔ)為中間數(shù)據(jù),如果不支持文本直接提取則進(jìn)行后續(xù)步驟;
對(duì)文檔進(jìn)行識(shí)別,將圖像中的文字轉(zhuǎn)換成文本格式;
基于自然語(yǔ)言處理對(duì)識(shí)別出的文本進(jìn)行內(nèi)容修復(fù),修復(fù)后的數(shù)據(jù)存儲(chǔ)為中間數(shù)據(jù)。
根據(jù)本發(fā)明的基于自然語(yǔ)言處理的文檔自動(dòng)生成方法的一實(shí)施例,步驟2進(jìn)一步包括:
對(duì)中間數(shù)據(jù)進(jìn)行分詞處理;
分詞處理后的數(shù)據(jù)進(jìn)行實(shí)體識(shí)別處理;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海唯識(shí)律簡(jiǎn)信息科技有限公司,未經(jīng)上海唯識(shí)律簡(jiǎn)信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810928628.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:用于輸出信息的方法和裝置
- 下一篇:句模提取方法及裝置
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 結(jié)構(gòu)化元數(shù)據(jù)的合并方法、傳輸方法以及分割方法
- 一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關(guān)聯(lián)方法及系統(tǒng)
- 一種將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法及裝置
- 業(yè)務(wù)項(xiàng)目的風(fēng)險(xiǎn)識(shí)別方法及裝置
- 一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)查詢方法、設(shè)備、存儲(chǔ)介質(zhì)及裝置
- 信息關(guān)聯(lián)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方法、裝置、設(shè)備及介質(zhì)
- 一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法
- 界面自動(dòng)生成方法和界面自動(dòng)生成系統(tǒng)
- 數(shù)據(jù)自動(dòng)生成方法以及數(shù)據(jù)自動(dòng)生成系統(tǒng)
- 程序自動(dòng)生成裝置和程序自動(dòng)生成方法
- 基于ATE的測(cè)試程序自動(dòng)生成方法及ATE測(cè)試方法
- 報(bào)告自動(dòng)生成方法及自動(dòng)生成系統(tǒng)
- 醫(yī)囑的自動(dòng)生成裝置和自動(dòng)生成方法
- 病歷的自動(dòng)生成方法和自動(dòng)生成裝置
- 自動(dòng)本體生成的方法、系統(tǒng)和介質(zhì)
- 自動(dòng)代碼生成
- 自動(dòng)配置生成
- 計(jì)算機(jī)化的自然語(yǔ)言查詢意圖分派
- 自然語(yǔ)言處理方法及相關(guān)設(shè)備、系統(tǒng)和存儲(chǔ)裝置
- 一種支持多種服務(wù)的自然語(yǔ)言處理方法、裝置及系統(tǒng)
- 一種自然語(yǔ)言處理方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言處理模型的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義識(shí)別的自然語(yǔ)言處理方法、裝置和系統(tǒng)
- 一種自然語(yǔ)言處理方法和裝置
- 自然語(yǔ)言轉(zhuǎn)換處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于NLP自然語(yǔ)言的自動(dòng)提取方法及裝置
- 藏語(yǔ)自然語(yǔ)言訓(xùn)練方法及數(shù)據(jù)處理平臺(tái)





