[發明專利]一種基于自然語言處理的文檔自動生成方法和系統在審
| 申請號: | 201810928628.6 | 申請日: | 2018-08-15 |
| 公開(公告)號: | CN109190098A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 姚毅 | 申請(專利權)人: | 上海唯識律簡信息科技有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F17/27;G06F16/36 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 施浩 |
| 地址: | 200120 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構化數據 自動生成 自然語言處理 原始文檔 中間數據 文檔 知識庫構建 輸出 報告文檔 分詞處理 關系抽取 目標文檔 實體識別 文檔類型 文檔模板 文檔組裝 專業領域 自動分類 抽取 數據庫 取出 分類 | ||
1.一種基于自然語言處理的文檔自動生成方法,其特征在于,包括:
步驟1:對輸入的原始文檔進行自動分類,基于不同分類的原始文檔進行對應處理,分別得到中間數據和結構化數據;
步驟2:對中間數據進行分詞處理、實體識別、關系抽取、事件抽取和知識庫構建,抽取出的數據作為結構化數據存入數據庫;
步驟3:根據輸出的文檔類型選擇文檔模板,結合獲取到的結構化數據進行文檔組裝,輸出最終的目標文檔。
2.根據權利要求1所述的基于自然語言處理的文檔自動生成方法,其特征在于,步驟1進一步包括:
確定數據獲取需求;
根據輸入的原始文檔,獲取每個原始文檔的文件類型,進而可以區分出各種不同種類的原始文檔;
判斷是否為圖片文檔,若不是圖片文檔則先對原始文檔進行圖片化處理再進行后續步驟,若為圖片文檔則直接進行后續步驟;
基于圖像處理進行文檔分類;
根據文檔分類判斷文檔是否為固定格式的文檔,如果是固定格式的文檔則基于機器學習對固定格式文檔進行信息提取得到結構化數據,如果不是固定格式的文檔則進行后續步驟;
判斷文檔是否支持文本直接提取,如果支持文本直接提取則從原始文檔中獲取其中的文本內容并存儲為中間數據,如果不支持文本直接提取則進行后續步驟;
對文檔進行識別,將圖像中的文字轉換成文本格式;
基于自然語言處理對識別出的文本進行內容修復,修復后的數據存儲為中間數據。
3.根據權利要求1所述的基于自然語言處理的文檔自動生成方法,其特征在于,步驟2進一步包括:
對中間數據進行分詞處理;
分詞處理后的數據進行實體識別處理;
對實體識別后的數據進行關系抽取,獲取文本中實體之間存在的語法或語義上的聯系;
對關系抽取后的數據進行事件抽取,從含有事件信息的文本中抽取出所需的興趣事件信息,將用自然語言表達的事件以結構化的形式呈現;
對事件抽取后的數據進行知識圖譜校驗處理,根據從多個文檔已經獲取到的實體、關系和事件的信息構建相關的知識圖譜,用于信息的相互印證及異常事件的自動發現;
知識圖譜校驗處理后的數據形成結構化數據。
4.根據權利要求3所述的基于自然語言處理的文檔自動生成方法,其特征在于,在關系抽取處理之前還進行指代消解處理,以提高后續信息抽取結果的準確度。
5.根據權利要求1所述的基于自然語言處理的文檔自動生成方法,其特征在于,步驟3進一步包括:
基于結構化數據,根據所需輸出的目標文檔類型選擇不同的任務樹路徑生成報告;
基于當前文檔的處理階段進行對應的處理:若文檔處于中間處理階段則根據模板自動生成專業領域的草稿文檔,若文檔處于最終輸出階段則根據模板自動生成專業領域的正式文檔。
6.一種基于自然語言處理的文檔自動生成系統,其特征在于,系統包括:
原始文檔處理模塊,對輸入的原始文檔進行自動分類,基于不同分類的原始文檔進行對應處理,分別得到中間數據和結構化數據;
中間數據處理模塊,對中間數據進行分詞處理、實體識別、關系抽取、事件抽取和知識庫構建,抽取出的數據作為結構化數據存入數據庫;以及
目標文檔自動生成模塊,根據輸出的文檔類型選擇文檔模板,結合獲取到的結構化數據進行文檔組裝,輸出最終的目標文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海唯識律簡信息科技有限公司,未經上海唯識律簡信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810928628.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于輸出信息的方法和裝置
- 下一篇:句模提取方法及裝置





