[發(fā)明專利]一種融入中文筆畫(huà)信息的新聞文本摘要生成的方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010970430.1 | 申請(qǐng)日: | 2020-09-15 |
| 公開(kāi)(公告)號(hào): | CN112115256A | 公開(kāi)(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計(jì))人: | 周士華;顏靜;王賓;呂卉 | 申請(qǐng)(專利權(quán))人: | 大連大學(xué) |
| 主分類(lèi)號(hào): | G06F16/34 | 分類(lèi)號(hào): | G06F16/34;G06F40/289;G06F40/284;G06F40/237;G06F40/216;G06F40/30;G06K9/62 |
| 代理公司: | 大連東方專利代理有限責(zé)任公司 21212 | 代理人: | 李馨 |
| 地址: | 116622 遼寧*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融入 中文 筆畫(huà) 信息 新聞 文本 摘要 生成 方法 裝置 | ||
1.一種融入中文筆畫(huà)信息的新聞文本摘要生成的方法,其特征在于,包括:
獲取新聞文本數(shù)據(jù),所述新聞文本數(shù)據(jù)包括新聞標(biāo)題與正文;
對(duì)所述新聞文本數(shù)據(jù)進(jìn)行預(yù)處理,得到所述新聞文本數(shù)據(jù)的分詞文本;
對(duì)所述分詞文本中的每個(gè)單詞進(jìn)行掃描得到該分詞文本的筆畫(huà)字典,將所述筆畫(huà)字典轉(zhuǎn)換為向量形式;
基于向量形式的筆畫(huà)字典,生成各單詞基于筆畫(huà)信息的嵌入,并根據(jù)各單詞基于筆畫(huà)信息的嵌入將句子表示成嵌入向量;
將所述嵌入向量表示為有向圖,并利用TextRank算法對(duì)所述有向圖進(jìn)行迭代,從而獲得各個(gè)句子的得分,根據(jù)各個(gè)句子的得分生成摘要輸出。
2.根據(jù)權(quán)利要求1所述的融入中文筆畫(huà)信息的新聞文本摘要生成的方法,其特征在于,對(duì)所述新聞文本數(shù)據(jù)進(jìn)行預(yù)處理,得到所述新聞文本數(shù)據(jù)的分詞文本,包括:
根據(jù)中文的標(biāo)點(diǎn)符號(hào)將所述新聞文本數(shù)據(jù)分為若干句子;
依次對(duì)每個(gè)句子進(jìn)行數(shù)據(jù)清洗,刪除重復(fù)數(shù)據(jù)與無(wú)效數(shù)據(jù);
對(duì)清洗后的句子進(jìn)行分詞操作,將各單詞之間用頓號(hào)隔開(kāi),從而得到新聞文本數(shù)據(jù)的分詞文本。
3.根據(jù)權(quán)利要求1所述的融入中文筆畫(huà)信息的新聞文本摘要生成的方法,其特征在于,基于向量形式的筆畫(huà)字典,生成各單詞基于筆畫(huà)信息的嵌入,包括:
基于所述向量形式的筆畫(huà)字典計(jì)算分詞文本中每一個(gè)單詞與上下文單詞之間的相似度;
基于所述相似度,通過(guò)當(dāng)前單詞對(duì)其上下文單詞進(jìn)行概率建模,通過(guò)模型生成單詞基于筆畫(huà)信息的嵌入。
4.一種融入中文筆畫(huà)信息的新聞文本摘要生成的裝置,其特征在于,包括:
獲取單元,用于獲取新聞文本數(shù)據(jù),所述新聞文本數(shù)據(jù)包括新聞標(biāo)題與正文;
預(yù)處理單元,用于對(duì)所述新聞文本數(shù)據(jù)進(jìn)行預(yù)處理,得到所述新聞文本數(shù)據(jù)的分詞文本;
筆畫(huà)字典生成單元,用于對(duì)所述分詞文本中的每個(gè)單詞進(jìn)行掃描得到該分詞文本的筆畫(huà)字典,將所述筆畫(huà)字典轉(zhuǎn)換為向量形式;
嵌入向量生成單元,用于基于向量形式的筆畫(huà)字典,生成各單詞基于筆畫(huà)信息的嵌入,并根據(jù)各單詞基于筆畫(huà)信息的嵌入將句子表示成嵌入向量;
輸出單元,用于將所述嵌入向量表示為有向圖,并利用TextRank算法對(duì)所述有向圖進(jìn)行迭代,從而獲得各個(gè)句子的得分,根據(jù)各個(gè)句子的得分生成摘要輸出。
5.根據(jù)權(quán)利要求4所述的融入中文筆畫(huà)信息的新聞文本摘要生成的裝置,其特征在于,所述預(yù)處理單元包括:
分句模塊,用于根據(jù)中文的標(biāo)點(diǎn)符號(hào)將所述新聞文本數(shù)據(jù)分為若干句子;
清洗模塊,用于依次對(duì)每個(gè)句子進(jìn)行數(shù)據(jù)清洗,刪除重復(fù)數(shù)據(jù)與無(wú)效數(shù)據(jù);
分詞模塊,用于對(duì)清洗后的句子進(jìn)行分詞操作,將各單詞之間用頓號(hào)隔開(kāi),從而得到新聞文本數(shù)據(jù)的分詞文本。
6.根據(jù)權(quán)利要求4所述的融入中文筆畫(huà)信息的新聞文本摘要生成的方法,其特征在于,所述嵌入向量生成單元包括:
相似度計(jì)算模塊,用于基于所述向量形式的筆畫(huà)字典計(jì)算分詞文本中每一個(gè)單詞與上下文單詞之間的相似度;
嵌入生成模塊,用于基于所述相似度,通過(guò)當(dāng)前單詞對(duì)其上下文單詞進(jìn)行概率建模,通過(guò)模型生成單詞基于筆畫(huà)信息的嵌入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連大學(xué),未經(jīng)大連大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010970430.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種增強(qiáng)尼龍包容鋼齒輪
- 一種增強(qiáng)尼龍包容鋼齒輪
- 融入式市場(chǎng)系統(tǒng)和方法
- 煤矸石淋濾液消融入滲土柱模擬系統(tǒng)及特征參數(shù)測(cè)定方法
- 煤矸石淋濾液消融入滲室內(nèi)土柱模擬裝置
- 將句子權(quán)重融入神經(jīng)機(jī)器翻譯的領(lǐng)域適應(yīng)方法
- 融入依存關(guān)系的神經(jīng)機(jī)器翻譯方法
- 基于虛擬現(xiàn)實(shí)及多模態(tài)信息的孤獨(dú)癥輔助干預(yù)系統(tǒng)及方法
- 一種基于生成對(duì)抗網(wǎng)絡(luò)的視頻廣告融入系統(tǒng)與方法
- 基于融入空間信息的加權(quán)伽馬混合模型的SAR影像分割方法
- 漢字筆畫(huà)使用的方法
- 檢測(cè)文字筆畫(huà)的方法和裝置、定位文字行的方法和裝置、判斷字幕重復(fù)的方法和裝置
- 筆畫(huà)輪廓的識(shí)別和變換方法及相關(guān)裝置
- 在熱介質(zhì)上繪制圖像的設(shè)備、方法和計(jì)算機(jī)程序產(chǎn)品
- 基于觸摸屏的筆畫(huà)處理方法及裝置
- 對(duì)電子設(shè)備的字符書(shū)寫(xiě)操作進(jìn)行規(guī)范性判斷的方法及裝置
- 一種文本檢測(cè)的方法和裝置
- 一種濾波器和濾波方法
- 一種平凹狀一色配多筆指導(dǎo)筆順的本子帖
- 助記詞生成方法、私鑰生成方法、錢(qián)包導(dǎo)入方法
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





