[發明專利]文檔生成系統在審
| 申請號: | 202010401491.6 | 申請日: | 2020-05-13 |
| 公開(公告)號: | CN113673210A | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 沈心瑤;陳江捷;肖仰華 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F16/35;G06F16/335 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 盧泓宇 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 生成 系統 | ||
1.一種文檔生成系統,其特征在于,包括:
輸入數據獲取模塊,用于獲取訓練數據以及用戶輸入的待分析文檔材料,該訓練數據包括多個行文風格統一的歷史文檔材料以及與該歷史文檔材料的文本內容相關的多種相關材料;
論據信息抽取組合模塊,用于對所述待分析文檔材料進行論據信息的抽取并組合為相應的論據段,存儲有預先根據所述訓練數據訓練完成并且用于識別句子的類型的分類器以及用于抽取相應所述類型的句子的模板規則;
論點信息匹配生成模塊,用于根據所述論據段生成相應的論點信息,存儲有預先根據所述訓練數據訓練完成并且用于至少根據所述論據段生成相應候選論點信息的論點生成模型、以及由所述歷史文檔材料中的所有論點句子組成的論點池,所述論點信息為所述論據段的概括性的中心句;
文檔生成模塊,用于根據所述論據段以及所述論點信息生成新的文檔材料,
其中,所述論據信息抽取組合模塊具有論據抽取單元、分類識別單元、匹配抽取單元以及組合單元,
所述論點信息生成匹配模塊具有候選論點生成單元以及論點信息匹配單元,
所述論據抽取單元根據所述模板規則從所述待分析文檔材料中抽取各個所述類型的句子作為相應類型的所述論據信息,
所述分類識別單元通過所述分類器對所述相關材料中的各個句子進行類型識別得到各個所述句子的句子類型,
所述匹配抽取單元根據所述模板規則以及所述句子類型從所述相關材料中抽取相應所述句子作為相應類型的所述論據信息,
所述組合單元用于將相同類型的所述論據信息組合形成所述論據段,
所述候選論點生成單元用于將所述論據段輸入所述論點生成模型生成候選論點信息,
所述論點信息匹配單元用于根據所述候選論點信息在所述論點池中匹配出最相似的論點句子作為所述論點信息。
2.根據權利要求1所述的文檔生成系統,其特征在于,還包括:
信息推薦模塊,
其中,所述論點池包含多個小論點池,該小論點池基于聚類算法對所述論點句子進行聚類得到,
所述信息推薦模塊用于在所述論點信息所對應的小論點池中獲取預定數量個論點句子作為推薦論點信息,并獲取預定數量個論據段作為推薦論據信息,進一步將所述推薦論點信息以及所述推薦論據信息進行輸出。
3.根據權利要求1所述的文檔生成系統,其特征在于,還包括:
輸入顯示模塊,存儲有推薦信息顯示畫面,
其中,所述信息推薦模塊將所述推薦論點信息以及所述推薦論據信息輸出給所述輸入顯示模塊,
所述輸入顯示模塊顯示所述推薦信息顯示畫面并顯示所述推薦論點信息以及所述推薦論據信息讓所述用戶選定需要的所述推薦論點信息以及所述推薦論據信息作為文檔生成信息,
一旦所述用戶完成了所述文檔生成信息的選定,所述文檔生成模塊就根據所述文檔生成信息生成新的文檔材料。
4.根據權利要求1所述的文檔生成系統,其特征在于:
其中,所述分類器為fastText分類器,該分類器的目標函數為:
式中,N是所述歷史文檔材料與所述待分析文檔材料中所述句子的數量,xn是第n個所述句子的特征,yn是預測標簽,f是softmax函數,A和B是權重矩陣,
另外,該fastText分類器還采用了層次softmax和N-gram特征,即:
式中,ni表示深度i的節點。
5.根據權利要求1所述的文檔生成系統,其特征在于:
其中,所述歷史文檔材料為多個干部的歷史考察材料,所述待分析文檔材料為待分析考察材料,
所述相關材料為各個所述干部的業績信息以及述職材料,
所述類型為總括、品德、能力和業績、廉政以及特點特長不足中的任意一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010401491.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分布式混合動力車輛驅動裝置
- 下一篇:針織的設計制作系統及其方法





