[發(fā)明專(zhuān)利]一種新聞自動(dòng)摘要方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202210744348.6 | 申請(qǐng)日: | 2022-06-28 |
| 公開(kāi)(公告)號(hào): | CN114996444A | 公開(kāi)(公告)日: | 2022-09-02 |
| 發(fā)明(設(shè)計(jì))人: | 劉軍;徐飛;彭佳佳;陳芾珩;贠曼 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)人民解放軍63768部隊(duì);西安工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06F16/34 | 分類(lèi)號(hào): | G06F16/34;G06F40/289;G06F40/216;G06F40/242;G06F40/30;G06F17/16 |
| 代理公司: | 西安通大專(zhuān)利代理有限責(zé)任公司 61200 | 代理人: | 李鵬威 |
| 地址: | 710699 陜*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 新聞 自動(dòng) 摘要 方法 系統(tǒng) | ||
1.一種新聞自動(dòng)摘要方法,其特征在于,包括以下步驟:
S1,對(duì)新聞文本進(jìn)行預(yù)處理,首先進(jìn)行分句處理,根據(jù)分句結(jié)果進(jìn)行分詞,去停用詞;
S2,計(jì)算分詞處理后的新聞文本中句子與標(biāo)題的相似度;
S3,利用IF-IDF模型獲取新聞文本中的關(guān)鍵詞,通過(guò)爬取新聞相關(guān)領(lǐng)域詞,構(gòu)建領(lǐng)域詞典,結(jié)合關(guān)鍵詞和領(lǐng)域詞計(jì)算句子中心性;
S4,將文本預(yù)處理后的句子進(jìn)行特征向量表示,計(jì)算句子間的相似度;
S5,根據(jù)句子與標(biāo)題的相似度、句子中心性和句子間的相似度迭代計(jì)算調(diào)整后的句子相似度矩陣直至收斂,根據(jù)句子權(quán)重大小進(jìn)行排序,得到相應(yīng)的句子排序,選取句子權(quán)重排序靠前的句子作為最終摘要。
2.根據(jù)權(quán)利要求1所述的一種新聞自動(dòng)摘要方法,其特征在于,按照標(biāo)點(diǎn)符號(hào)進(jìn)行分句處理,對(duì)分句處理后小于七個(gè)字的短句進(jìn)行刪除。
3.根據(jù)權(quán)利要求1所述的一種新聞自動(dòng)摘要方法,其特征在于,對(duì)標(biāo)題進(jìn)行分詞并去停用詞,然后對(duì)標(biāo)題中的關(guān)鍵詞賦權(quán)重,根據(jù)關(guān)鍵詞權(quán)重計(jì)算句子權(quán)重,作為句子與標(biāo)題的相似度:
4.根據(jù)權(quán)利要求1所述的一種新聞自動(dòng)摘要方法,其特征在于,句子的中心性得分計(jì)算公式如下:
其中Wc,k表示新聞中第k個(gè)句子的重要性得分,kw=ks∩kos,KW=ks∪kos,ks表示第k個(gè)句子中包含的關(guān)鍵詞,kos表示除第k個(gè)句子外,其他句子中包含的關(guān)鍵詞,w表示關(guān)鍵詞詞的權(quán)重。
5.根據(jù)權(quán)利要求4所述的一種新聞自動(dòng)摘要方法,其特征在于,領(lǐng)域詞的權(quán)重為0.5。
6.根據(jù)權(quán)利要求1所述的一種新聞自動(dòng)摘要方法,其特征在于,通過(guò)詞向量將單詞轉(zhuǎn)換為1*100維的向量,所有詞向量相加求平均值,則句子可以表示為:
其中si表示新聞中的第i個(gè)句子,w′i表示senti中的第i個(gè)單詞的詞向量,則兩句子相似度的計(jì)算公式表示為:
其中,cos(si,sj)為句子si,sj的相似度,n為詞向量的維數(shù);sik為si向量第k維的值,sjk為sj向量第k維的值。
7.根據(jù)權(quán)利要求1所述的一種新聞自動(dòng)摘要方法,其特征在于,綜合考慮各部分權(quán)重影響因子,構(gòu)建句子權(quán)重計(jì)算公式:
WT=λtWt+λcWc+λfWf
其中λ為影響各部分權(quán)重的影響因子,Wf為句間相似度,WT為最終的句子權(quán)重。
8.根據(jù)權(quán)利要求7所述的一種新聞自動(dòng)摘要方法,其特征在于,λ是根據(jù)實(shí)驗(yàn)分析調(diào)優(yōu)后的加權(quán)系數(shù),取值范圍為0~1,且λt+λc+λf=1。
9.根據(jù)權(quán)利要求8所述的一種新聞自動(dòng)摘要方法,其特征在于,λt=0.2,λc=0.1,λf=0.7。
10.一種新聞自動(dòng)摘要系統(tǒng),其特征在于,包括預(yù)處理模塊,特征計(jì)算模塊和摘要生成模塊:
預(yù)處理模塊用于對(duì)新聞文本進(jìn)行預(yù)處理,首先進(jìn)行分句處理,根據(jù)分句結(jié)果進(jìn)行分詞,去停用詞;
特征計(jì)算模塊用于計(jì)算分詞處理后的新聞文本中句子與標(biāo)題的相似度;利用IF-IDF模型獲取新聞文本中的關(guān)鍵詞,通過(guò)爬取新聞相關(guān)領(lǐng)域詞,構(gòu)建領(lǐng)域詞典,結(jié)合關(guān)鍵詞和領(lǐng)域詞計(jì)算句子中心性;將文本預(yù)處理后的句子進(jìn)行特征向量表示,計(jì)算句子間的相似度;
摘要生成模塊用于根據(jù)句子與標(biāo)題的相似度、句子中心性和句子間的相似度迭代計(jì)算調(diào)整后的句子相似度矩陣直至收斂,根據(jù)句子權(quán)重大小進(jìn)行排序,得到相應(yīng)的句子排序,選取句子權(quán)重排序靠前的句子作為最終摘要。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)人民解放軍63768部隊(duì);西安工業(yè)大學(xué),未經(jīng)中國(guó)人民解放軍63768部隊(duì);西安工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210744348.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





