[發(fā)明專利]一種基于語義相似度的中文自動文本摘要評價方法在審
| 申請?zhí)枺?/td> | 202110382498.2 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113032569A | 公開(公告)日: | 2021-06-25 |
| 發(fā)明(設(shè)計)人: | 張祖平;姜自高;鄭瑾 | 申請(專利權(quán))人: | 中南大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/289 |
| 代理公司: | 長沙七源專利代理事務(wù)所(普通合伙) 43214 | 代理人: | 蔡實艷;張勇 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 相似 中文 自動 文本 摘要 評價 方法 | ||
1.一種基于語義相似度的中文自動文本摘要評價方法,其特征在于,包括以下步驟:
步驟一、從LCSTS中文摘要數(shù)據(jù)集PARTⅡ、PARTⅢ部分中抽取出摘要文本、新聞短文本和人工標(biāo)注;
步驟二、對抽取出的摘要文本和新聞短文本進(jìn)行預(yù)處理,使用預(yù)訓(xùn)練詞向量對摘要文本和新聞短文本進(jìn)行表征;
步驟三、將以預(yù)訓(xùn)練詞向量進(jìn)行表征的摘要文本和新聞短文本輸入至DPCNN-Siamese混合網(wǎng)絡(luò)模型中進(jìn)行評分。
2.根據(jù)權(quán)利要求1所述的中文自動文本摘要評價方法,其特征在于,所述步驟二中對摘要文本和新聞短文本進(jìn)行預(yù)處理的具體步驟如下:
步驟2.1、通過python的lxml庫將LCSTS中文摘要數(shù)據(jù)集中的摘要文本、新聞短文本和人工標(biāo)注的內(nèi)容抽取出來,并按照對應(yīng)順序分別輸出到不同文件中;
步驟2.2、使用LTP分詞工具對從LCSTS中文摘要數(shù)據(jù)集中抽取出的摘要文本和新聞短文本進(jìn)行分詞處理,并使用中文維基百科語料預(yù)訓(xùn)練詞向量作為中文數(shù)據(jù)的文本詞向量;
步驟2.3、將摘要文本和新聞短文本中的中文轉(zhuǎn)換成300維的預(yù)訓(xùn)練詞向量,并將每一條摘要文本的篇長處理成32字符、每一條新聞短文本的篇長處理成128字符;
步驟2.4、將已經(jīng)處理成篇長32字符的摘要文本和128字符的新聞短文本分別輸入到神經(jīng)網(wǎng)絡(luò)中。
3.根據(jù)權(quán)利要求2所述的中文自動文本摘要評價方法,其特征在于,
將摘要文本的篇長處理成32字符的具體方法如下:設(shè)置一個(n,32)維的空列表,并逐條錄入摘要文本數(shù)據(jù),當(dāng)該條摘要文本的篇長小于32字符時,則在其后以補零的方式處理;當(dāng)該條摘要文本的篇長大于32字符時,則截掉超出32字符的內(nèi)容,只錄入前32個字符的數(shù)據(jù);
將新聞短文本的篇長處理成128字符的具體方法如下:設(shè)置一個(n,128)維的空列表,并逐條錄入新聞短文本文本數(shù)據(jù),當(dāng)該條新聞短文本的篇長小于128字符時,則在其后以補零的方式進(jìn)行處理;當(dāng)該條新聞短文本的篇長大于128字符時,則截掉超出128字符的內(nèi)容,只錄入前128個字符的數(shù)據(jù);
其中:n代表LCSTS中文摘要數(shù)據(jù)集的樣本個數(shù)。
4.根據(jù)權(quán)利要求1所述的中文自動文本摘要評價方法,其特征在于,所述步驟三對摘要文本和新聞短文本進(jìn)行評分的具體步驟如下:
步驟3.1、將摘要文本和新聞短文本分別輸入至基于Siamese網(wǎng)絡(luò)的結(jié)構(gòu)中;
步驟3.2、根據(jù)輸入至基于Siamese網(wǎng)絡(luò)的結(jié)構(gòu)中的摘要文本和新聞短文本的長度分別通過深度不同的DPCNN網(wǎng)絡(luò)1和DPCNN網(wǎng)絡(luò)2進(jìn)行特征抽取;
步驟3.3、將摘要文本和新聞短文本的特征通過concat函數(shù)進(jìn)行拼接池化后輸入至全連接層中;
步驟3.4、將人工標(biāo)注作為分類結(jié)果,使用softmax函數(shù)對輸入至全連接層中的摘要文本和新聞短文本的特征與人工標(biāo)注進(jìn)行語義相似度進(jìn)行匹配、打分;
步驟3.5、將生成摘要文本或新聞短文本相似度打分進(jìn)行加權(quán)平均,得到該條摘要文本或新聞短文本的文本得分。
5.根據(jù)權(quán)利要求1所述的中文自動文本摘要評價方法,其特征在于,所述DPCNN-Siamese混合網(wǎng)絡(luò)模型設(shè)置為Siamese網(wǎng)絡(luò)模型與DPCNN網(wǎng)絡(luò)模型相結(jié)合的混合網(wǎng)絡(luò)模型,其中,Siamese網(wǎng)絡(luò)模型用于進(jìn)行語義相似度匹配,DPCNN網(wǎng)絡(luò)模型用于對摘要文本或新聞短文本的特征進(jìn)行提取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中南大學(xué),未經(jīng)中南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110382498.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





