[發明專利]一種融入中文筆畫信息的新聞文本摘要生成的方法及裝置在審
| 申請號: | 202010970430.1 | 申請日: | 2020-09-15 |
| 公開(公告)號: | CN112115256A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 周士華;顏靜;王賓;呂卉 | 申請(專利權)人: | 大連大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/289;G06F40/284;G06F40/237;G06F40/216;G06F40/30;G06K9/62 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 李馨 |
| 地址: | 116622 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融入 中文 筆畫 信息 新聞 文本 摘要 生成 方法 裝置 | ||
本發明提供一種融入中文筆畫信息的新聞文本摘要生成的方法及裝置。方法包括:獲取新聞文本數據;對所述新聞文本數據進行預處理,得到所述新聞文本數據的分詞文本;對所述分詞文本中的每個單詞進行掃描得到該分詞文本的筆畫字典,將所述筆畫字典轉換為向量形式;基于向量形式的筆畫字典,生成各單詞基于筆畫信息的嵌入,并根據各單詞基于筆畫信息的嵌入將句子表示成嵌入向量;將所述嵌入向量表示為有向圖,并利用TextRank算法對所述有向圖進行迭代,從而獲得各個句子的得分,根據各個句子的得分生成摘要輸出。本發明使用融入筆畫信息的TextRank算法,使用Cw2vec模型生成基于筆畫信息的詞向量,通過迭代生成新聞的文本摘要。
技術領域
本發明涉及自然語言處理中的文本摘要生成領域,具體而言,尤其涉及一種融入中文筆畫信息的新聞文本摘要生成的方法及裝置。
背景技術
TextRank算法是一種有效的摘要生成算法,具有速度快,無監督的優點。傳統的TextRank算法具有一些弊端,比如僅僅考慮了詞頻等離散信息,人們在后期的改進過程中將TextRank算法與詞向量表示技術進行融合,提高了摘要生成的質量。但是目前已經存在的主要熱門詞向量模型例如Word2vec、 FastText、Bert等都是基于西方語言,所以無法有效利用中文字符內部的語義信息。
發明內容
本發明提供了一種融入中文筆畫信息的新聞文本摘要生成的方法及裝置。將傳統的TextRank算法與筆畫信息融合,使用了Cw2vec模型,根據文本中的筆畫信息將句子中的每個詞語映射到高維詞庫,形成了融合中文筆劃信息的句子向量,然后使用TextRank算法進行迭代,生成文本的摘要。本發明解決了現有方法無法有效利用中文字符內部的語義信息的問題。
本發明采用的技術手段如下:
一種融入中文筆畫信息的新聞文本摘要生成的方法,包括:
獲取新聞文本數據,所述新聞文本數據包括新聞標題與正文;
對所述新聞文本數據進行預處理,得到所述新聞文本數據的分詞文本;
對所述分詞文本中的每個單詞進行掃描得到該分詞文本的筆畫字典,將所述筆畫字典轉換為向量形式;
基于向量形式的筆畫字典,生成各單詞基于筆畫信息的嵌入,并根據各單詞基于筆畫信息的嵌入將句子表示成嵌入向量;
將所述嵌入向量表示為有向圖,并利用TextRank算法對所述有向圖進行迭代,從而獲得各個句子的得分,根據各個句子的得分生成摘要輸出。
進一步地,對所述新聞文本數據進行預處理,得到所述新聞文本數據的分詞文本,包括:
根據中文的標點符號將所述新聞文本數據分為若干句子;
依次對每個句子進行數據清洗,刪除重復數據與無效數據;
對清洗后的句子進行分詞操作,將各單詞之間用頓號隔開,從而得到新聞文本數據的分詞文本。
進一步地,基于向量形式的筆畫字典,生成各單詞基于筆畫信息的嵌入,包括:
基于所述向量形式的筆畫字典計算分詞文本中每一個單詞與上下文單詞之間的相似度;
基于所述相似度,通過當前單詞對其上下文單詞進行概率建模,通過模型生成單詞基于筆畫信息的嵌入。
一種融入中文筆畫信息的新聞文本摘要生成的裝置,包括:
獲取單元,用于獲取新聞文本數據,所述新聞文本數據包括新聞標題與正文;
預處理單元,用于對所述新聞文本數據進行預處理,得到所述新聞文本數據的分詞文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連大學,未經大連大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010970430.1/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





