[發明專利]一種基于無監督的多模型融合抽取式文本摘要方法在審
| 申請號: | 202010476581.1 | 申請日: | 2020-05-29 |
| 公開(公告)號: | CN111737453A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 司馬華鵬;靳超超;姚奧 | 申請(專利權)人: | 南京硅基智能科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30;G06K9/62 |
| 代理公司: | 江蘇舜點律師事務所 32319 | 代理人: | 杜東輝 |
| 地址: | 210012 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 模型 融合 抽取 文本 摘要 方法 | ||
1.一種基于無監督的多模型融合抽取式文本摘要方法,其特征是:包括以下步驟:
預先對中心度文本摘要模型進行訓練優化,優化后對預處理后的待處理文檔進行計算得到第一批摘要summary1;用語義相似度捕捉模型對預處理后的待處理文檔計算得到第二批摘要summary2;
融合第一批摘要summary1和第二批摘要summary2得到候選摘要middle_summary;
使用MMR算法對候選摘要middle_summary計算得到最終摘要final_summary。
2.根據權利要求1所述的一種基于無監督的多模型融合抽取式文本摘要方法,其特征是:所述中心度文本摘要模型采取的是PacSum模型,在訓練優化的過程中得出最優超參數βbest,ηbest,θbest;所述語義相似度捕捉模型采取的是改進的TextRank模型,改進的內容包括使用分布式表示詞向量和余弦相似度。
3.根據權利要求2所述的一種基于無監督的多模型融合抽取式文本摘要方法,其特征是:對PacSum模型進行訓練優化包括以下步驟:
輸入用作訓練語料的文檔集T;
對文檔集T進行文本預處理;
對超參數β,η,θ構造超參數列表,用枚舉的方式對超參數的取值進行組合:β從[0.1,0.2,0.3,0.4]取值,η從[-1.0,...,-0.1,0.0,0.1,0.2,...,1.0]取值,θ從[0.0,0.1,0.2,...,1.0]取值,得到超參數列表:P={(βi,ηi,θi)|i=1...924},初始時令i=1,令rouge_list為空列表;
對文檔集T中的每篇文檔使用超參數βi,ηi,θi計算摘要,所有摘要構成摘要列表;
對摘要列表計算ROUGE評分,摘要列表中每個摘要C的ROUGE評分計算公式,公式如下:
其中,R代表召回率,P代表準確率,F代表F1分值;ri為參考摘要的第i個句子;C為待處理摘要;LCS/lcs表示最長公共子序列,LCS∪表示對C中所有句子和ri求最長公共子序列,結果再合并去重;Nref為參考摘要中所有句子的總詞數;Nc為C中所有句子的總詞數;γ為常數,取值為1.0;對摘要列表計算平均ROUGE評分得到rouge_i;
把rouge_i加入到列表rouge_list;再令i=i+1,若i=924,重復執行得到ROUGE評分;若i924,進行下一步;
從rouge_list中選擇最高ROUGE分值,把對應的超參數βbest,ηbest,θbest作為最優超參數。
4.根據權利要求3所述的一種基于無監督的多模型融合抽取式文本摘要方法,其特征是:對待處理文檔計算摘要包括以下步驟:
輸入:當前待處理文檔,超參數β,η,θ;
在訓練PacSum模型時,待處理文檔代表訓練語料中的每一篇文檔;超參數β,η,θ代表循環中這3個變量的當前取值βi,ηi,θi;作為計算結果的摘要代表循環中的一次迭代中的臨時結果;
在使用訓練好的PacSum模型計算摘要時,待處理文檔代表最終要為之計算第一批摘要summary1的文檔;超參數β,η,θ代表訓練好的這3個變量的最優取值βbest,ηbest,θbest;作為計算結果的摘要代表需要計算的第一批摘要summary1;
使用超參數β由待處理文檔構造圖G;
使用超參數η,θ由圖G計算得到摘要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京硅基智能科技有限公司,未經南京硅基智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010476581.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種牛蒡功能性面點及其制備方法
- 下一篇:一種多艙位迎賓方法、系統以及車輛





