[發(fā)明專利]一種摘要形成方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201810563769.2 | 申請(qǐng)日: | 2018-06-04 |
| 公開(公告)號(hào): | CN109033066B | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 魏靜如;張嫻 | 申請(qǐng)(專利權(quán))人: | 浪潮軟件股份有限公司 |
| 主分類號(hào): | G06F40/211 | 分類號(hào): | G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 250100 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 摘要 形成 方法 裝置 | ||
1.一種摘要形成方法,其特征在于,包括:
S1:拆分輸入文本,以獲得所述輸入文本包括的每一個(gè)句子、每一個(gè)所述句子包括的每一個(gè)詞語;
S2:針對(duì)獲得的全部句子中的每一個(gè)句子均執(zhí)行:
針對(duì)所述全部句子中除當(dāng)前句子外的每一個(gè)其他句子均執(zhí)行:根據(jù)當(dāng)前句子包括的詞語和當(dāng)前其他句子包括的詞語,計(jì)算所述當(dāng)前句子指向所述當(dāng)前其他句子的相似度;
S3:根據(jù)計(jì)算出的每一個(gè)所述相似度,分別計(jì)算所述全部句子中的每一個(gè)句子的得分;
S4:利用所述全部句子中的至少一個(gè)第一句子來形成所述輸入文本的摘要,任一所述第一句子的得分,均不小于所述全部句子中除所述至少一個(gè)第一句子外的任一其他句子的得分;
在所述S1之后、所述S2之前,進(jìn)一步包括:根據(jù)預(yù)設(shè)的至少一個(gè)無效詞語,將獲得的每一個(gè)句子中包括的每一個(gè)無效詞語刪除;
和/或,
在所述S2之后、所述S3之前,進(jìn)一步包括:將計(jì)算出的每一個(gè)不大于預(yù)設(shè)相似度閾值的所述相似度刪除;
所述計(jì)算所述當(dāng)前句子指向所述當(dāng)前其他句子的相似度,包括:利用公式一或公式二,計(jì)算所述當(dāng)前句子指向所述當(dāng)前其他句子的相似度;
所述公式一包括:
所述公式二包括:
其中,Va為所述全部句子中的第a個(gè)句子,Vb為所述全部句子中的第b個(gè)句子,similarity(Va,Vb)為所述第a個(gè)句子指向所述第b個(gè)句子的相似度,c為所述第a個(gè)句子包括的詞語個(gè)數(shù),d為所述第b個(gè)句子包括的詞語個(gè)數(shù),Sae為所述第a個(gè)句子包括的第e個(gè)詞語的預(yù)設(shè)詞向量,1≤e≤c,Sbf為所述第b個(gè)句子包括的第f個(gè)詞語的預(yù)設(shè)詞向量,1≤f≤d,上標(biāo)T意為轉(zhuǎn)置;
和/或,
所述S1,包括:拆分輸入文本,以獲得所述輸入文本包括的每一個(gè)段落、每一個(gè)所述段落包括的每一個(gè)句子、每一個(gè)所述句子包括的每一個(gè)詞語,其中,所述全部句子按照各個(gè)句子在所述輸入文本中的先后出現(xiàn)順序依次排列;
在所述S4之前,進(jìn)一步包括:根據(jù)公式三,對(duì)計(jì)算出的每一個(gè)得分進(jìn)行優(yōu)化,并將優(yōu)化前的各個(gè)得分更新替換為相應(yīng)的優(yōu)化后的各個(gè)得分;
所述公式三包括:
其中,Vi為所述全部句子中的第i個(gè)句子,WS(Vi)為所述第i個(gè)句子的優(yōu)化前的得分,WS(Vi)′為所述第i個(gè)句子的優(yōu)化后的得分,g1和g2均為預(yù)設(shè)調(diào)整閾值,p為獲得的首段落包括的句子個(gè)數(shù),q為獲得的尾段落包括的句子個(gè)數(shù),h為所述全部句子的個(gè)數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,
所述分別計(jì)算所述全部句子中的每一個(gè)句子的得分,包括:根據(jù)公式四,分別計(jì)算所述全部句子中的每一個(gè)句子的得分;
所述公式四包括:
其中,Vm為所述全部句子中的第m個(gè)句子,Vn為所述全部句子中的第n個(gè)句子,Vk為所述全部句子中的第k個(gè)句子,WS(Vm)為所述第m個(gè)句子的得分,WS(Vn)為所述第n個(gè)句子的得分,x為預(yù)設(shè)的阻尼系數(shù),similarity(Vn,Vm)為所述第n個(gè)句子指向所述第m個(gè)句子的相似度,similarity(Vn,Vk)為所述第n個(gè)句子指向所述第k個(gè)句子的相似度,Vn∈In(Vm),In(Vm)為所述全部句子中指向所述第m個(gè)句子的每一個(gè)句子的集合,且當(dāng)前存在有In(Vm)中的任一句子指向所述第m個(gè)句子的相似度,Vk∈Out(Vn),Out(Vn)為所述全部句子中所述第n個(gè)句子指向的每一個(gè)句子的集合,且當(dāng)前存在有所述第n個(gè)句子指向Out(Vn)中的任一句子的相似度,所述全部句子中任一句子的得分的初始值已預(yù)定。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮軟件股份有限公司,未經(jīng)浪潮軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810563769.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種英文單詞拼寫檢查方法
- 下一篇:一種界圖
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





