[發明專利]一種基于單篇長文本的摘要生成方法在審
| 申請號: | 202010630431.1 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111858912A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 石振鋒;王亞卓;崔寶艷;桑略 | 申請(專利權)人: | 黑龍江陽光惠遠知識產權運營有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/279;G06Q50/18 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍江省哈爾*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 單篇 文本 摘要 生成 方法 | ||
1.一種基于單篇長文本的摘要生成方法,其特征是:包括以下步驟:
步驟1:針對待處理的單篇長文本,通過Bert算法構造文本句子的特征向量,確定句子間的余弦相似度;
步驟2:確定文本句子的權重得分,根據文本句子的位置、長度、與標題相似度特征,對文本句子進行權重修正;
步驟3:采用MMR算法對文本句子進行冗余度處理;
步驟4:根據冗余度處理的文本句子,進行單篇長文本摘要生成。
2.根據權利要求1所述的一種基于單篇長文本的摘要生成方法,其特征是:所述步驟1具體為:
步驟1.1:基于待處理的單篇長文本,選用NLTK庫中punkt分隔器中的sent_tokenize()函數來對英文文本進行句子分隔,punkt分隔器中的sent_tokenize()函數運用一種與文本語言無關的無監督方法對句子邊界進行檢測,使其能夠準確地處理單詞中帶點號的情況;
對句子進行分詞、大小寫轉換、去除停用詞、數字和標點處理工作,使用NLTK庫中的word_tokenize()函數來進行操作;在分詞之后對文中句子進行大小寫轉換、去除標點和數字,同時使用NLTK庫中自帶的停用詞庫來去除停用詞,得到單篇長文本特征詞集合;
步驟1.2:通過Bert算法構造文本句子的特征向量,根據Bert算法進行語言模型預訓練,采用了多層雙向Tansformer編碼進行預訓練,采用微調的方式解決下游預測任務,采用Masked語言模型來學習融合兩個不同方向的文本特征,采用Mask掩碼來代替原始單詞,在預訓練過程中進行預測;
基于Pytorch平臺,使用Python開發語言中的pytorch_transformers包來進行句向量訓練,構造文本句子的特征向量;
將向量夾角的余弦值作為衡量兩個個體間差異大小的度量,通過下式表示句子間的余弦相似度cosθ:
其中,X和Y均為單篇長文本向量。
3.根據權利要求1所述的一種基于單篇長文本的摘要生成方法,其特征是:所述步驟2具體為:
步驟2.1:單篇長文本共有n個句子,前三段共有u個句子,確定句子基于位置的權重調整系數,通過下式表示句子基于位置的權重調整系數Wposition:
權重調整系數值在前u個句子中采用依次遞減的方式,剩余句子保持原來的權重值;
步驟2.2:基于句子與標題的相似度的權重改進,提高包含標題關鍵詞語的句子的權重值,通過下式確定權重調整系數Wtitle:
Wtitle=1+sim(Si,Stitle)
其,中sim(Si,Stitle)為句子Si與標題句子Stitle的相似度;
步驟2.3:對句子長度進行過濾,引入長度系數,通過下式確定長度調整系數Wlength:
其中,CL為長度指數,L為當前句子長度,Lm為整篇文檔中最長的句子長度,Cave為CL的平均值;
當長度指數CL<0.1時,將不考慮該句子作為摘要候選句,即長度調整系數為0,否則做出權重系數修正。
4.根據權利要求3所述的一種基于單篇長文本的摘要生成方法,其特征是:通過TextRank算法進行權重迭代計算,對計算得到的權重W進行調整,通過下式表示調整后的權重系數:
W′=W*Wposition*Wtitle*Wlength
其中,W′表示調整后的權重系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江陽光惠遠知識產權運營有限公司,未經黑龍江陽光惠遠知識產權運營有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010630431.1/1.html,轉載請聲明來源鉆瓜專利網。





