[發明專利]一種文書生成方法、裝置、存儲介質和電子設備有效
申請號: | 201710758045.9 | 申請日: | 2017-08-29 |
公開(公告)號: | CN107622042B | 公開(公告)日: | 2021-07-06 |
發明(設計)人: | 師玉嬌;李寶善 | 申請(專利權)人: | 科大訊飛股份有限公司;上海科大訊飛信息科技有限公司 |
主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/169;G06F40/30;G06F40/211 |
代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 王立民 |
地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 文書 生成 方法 裝置 存儲 介質 電子設備 | ||
本發明公開了一種文書生成方法、裝置、存儲介質和電子設備,所述方法包括:對待生成文書的相關資料進行信息抽取,獲取文書生成需要的內容信息;對所述內容信息進行知識表示;基于所述內容信息的知識表示,自動生成文書。通過本發明可解決現有技術只能采用人工方法來生成內容結構不固定文書所帶來的耗時耗力、效率低下等問題。
技術領域
本發明涉及文書生成領域,尤其涉及一種文書生成方法、裝置、存儲介質和電子設備。
背景技術
自然語言生成(Natural Language Generation,NLG)技術是人工智能(Artificial Intelligence,AI)中非常活躍的一個領域,其在各行各業均有著廣泛的應用,如軍事文書的生成、司法文書的生成等。以司法應用為例,在司法辦案過程中,所需文書眾多,其文書的處理工作是司法辦案過程中的一項重要部分,處理的效率直接影響著辦案效率的高低。
現有的司法文書生成主要采用以下兩種方法:
1、基于人工的文書生成:由文書涉及領域的相關工作人員,基于專業知識、經驗和待生成文書相關資料,人工生成需要的文書。
2、基于模板技術的文書生成:首先預先按照可能出現的幾種情況事先構造數個相應的模板,每個模板包含一些常量和一些變量。當用戶輸入一定的信息后,文本生成器將這些信息作為字符串嵌入到模板中替代變量,生成文本。
然而,上述現有方案缺存在如下不足:基于人工的文書生成方法耗時耗力,影響整個辦案效率,且在當今案件日漸增多的現狀下,文書生成無疑給司法工作人員帶來了很重的工作負擔;基于模板技術的文書生成方法,與純人工方法相比,雖在一定程度上減少了司法人員工作量,但其只能解決有固定結構部分的文書生成,通用性較差。
發明內容
為克服上述現有技術存在的不足,本發明之目的在于提供一種文書生成方法、裝置、存儲介質和電子設備,以解決現有技術只能采用人工方法來生成內容結構不固定文書所帶來的耗時耗力、效率低下等問題。
為達上述目的,本發明提供的技術方案如下:
一種文書生成方法,包括如下步驟:
步驟一,對待生成文書的相關資料進行信息抽取,獲取文書生成需要的內容信息;
步驟二,對所述內容信息進行知識表示;
步驟三,基于所述內容信息的知識表示,自動生成文書。
可選的,步驟二進一步包括:
對所述內容信息確定知識表示結構;
通過對所述知識表示結構中各節點對應的具體內容進行語法和成分分析,填充所述知識表示結構中各節點,得到初步知識表示結構;
將得到的初步知識表示結構中的各節點進行去聚合重組,得到所述內容信息的知識表示。
可選的,步驟一進一步包括:
對所述待生成文書相關資料中每個標注單元進行標注;
根據待生成文書類型從已標注的資料中抽取出文書生成需要的信息。
可選的,于步驟一中,還包括:對抽取出的內容進行相似性分析,剔除相似度低的內容信息。
可選的,所述將得到的初步的知識表示中節點進行去聚合重組的步驟進一步包括:
選取一篇文檔作為基準文檔,依次選取該基準文檔的初始知識表示結構末級節點中的每一個節點;
遍歷其他文檔的初始知識表示結構的末級節點,比較兩節點對應句子的語義相似度;
根據比較結果對兩節點進行去聚合重組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司;上海科大訊飛信息科技有限公司,未經科大訊飛股份有限公司;上海科大訊飛信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710758045.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:隱性表格提取方法及裝置
- 下一篇:閱讀軟件中圖表處理方法