[發明專利]一種文本摘要的質量評價方法在審
| 申請號: | 202010178615.9 | 申請日: | 2020-03-14 |
| 公開(公告)號: | CN111400487A | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 劉博;申利彬 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 摘要 質量 評價 方法 | ||
1.一種自動文本摘要質量評價方法,其特征在于,包括以下步驟:
步驟1、構建語言質量網絡的正負樣本,并進行文本數據的處理;
步驟2、構建語言相似網絡的正負樣本,并進行文本數據的處理;
步驟3、微調語言質量網絡,直至模型收斂;
步驟4、微調語言相似網絡,直至模型收斂;
步驟5、融合語言質量得分和語義相似得分,將摘要質量模型得到的質量分數與摘要語義相似模型的分數進行相乘,得出摘要質量得分。
2.根據權利要求1所述的方法,其特征在于:
步驟1具體包括以下步驟:
步驟1.1、從訓練集中選擇一部分數據作為摘要質量模型的微調數據集A;
步驟1.2、將數據集A分為兩份,數據集AB和數據集AC,使用一個模型推理數據集AB,得到的摘要作為負樣本,數據集AC作為正樣本。
3.根據權利要求1所述的方法,其特征在于:
步驟2具體包括以下步驟:
步驟2.1、從訓練集中選擇一部分數據作為摘要語義相似模型的微調數據集D;
步驟2.2、將數據集D分為四份,分別為DE、DF、DG、DH;
步驟2.3、數據集DF隨機與DG配對,構建相似句對的負樣本;
步驟2.4、將DH中的摘要句切割為兩部分,選擇50%前半部分與50%后半部分,作為負樣本;
步驟2.5、最后DE作為正樣本。
4.根據權利要求1所述的方法,其特征在于:
摘要樣本作為負樣本,使用人工標注的摘要作為正樣本;針對語義相似網絡,使用兩種策略構建負樣本;第一種策略是對人工標注的摘要進行隨機配對,第二種策略是將人工標注的摘要進行切割。
5.根據權利要求1所述的方法,其特征在于:
語言質量網絡如Model1公式所示,
其中r表示一個二值向量0或1,是由伯努利模型以p概率產生;σ作為激活函數,W是連接預訓練模型輸出與質量網絡輸入的權重向量,X為輸入向量,b為偏置初始值為0.1,Sigmoid函數作為激活函數計算出最后的質量得分;
語義相似度網絡如Model2公式所示,
Model2=sigmoid(σ(W2σ(W1X+b1)+b2))
W1是通用語義空間轉為相似語義空間的參數向量,b1為偏置值,W2為相似語義空間進一步轉換的參數向量,b2為偏置值;最后將兩個Model得分進行綜合,得到摘要的質量得分。
6.根據權利要求1所述的方法,其特征在于:
對文本數據進行數據處理,具體包括刪除文本中的特殊字符與空格,然后使用開源工具jieba進行分詞,并根據停用此表,去除停用詞,最后得到處理后的數據樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010178615.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種污水處理外碳源篩選裝置及其使用方法
- 下一篇:一種基于聲紋的智能門鎖系統





