[發明專利]一種摘要形成方法及裝置有效
| 申請號: | 201810563769.2 | 申請日: | 2018-06-04 |
| 公開(公告)號: | CN109033066B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 魏靜如;張嫻 | 申請(專利權)人: | 浪潮軟件股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 摘要 形成 方法 裝置 | ||
1.一種摘要形成方法,其特征在于,包括:
S1:拆分輸入文本,以獲得所述輸入文本包括的每一個句子、每一個所述句子包括的每一個詞語;
S2:針對獲得的全部句子中的每一個句子均執行:
針對所述全部句子中除當前句子外的每一個其他句子均執行:根據當前句子包括的詞語和當前其他句子包括的詞語,計算所述當前句子指向所述當前其他句子的相似度;
S3:根據計算出的每一個所述相似度,分別計算所述全部句子中的每一個句子的得分;
S4:利用所述全部句子中的至少一個第一句子來形成所述輸入文本的摘要,任一所述第一句子的得分,均不小于所述全部句子中除所述至少一個第一句子外的任一其他句子的得分;
在所述S1之后、所述S2之前,進一步包括:根據預設的至少一個無效詞語,將獲得的每一個句子中包括的每一個無效詞語刪除;
和/或,
在所述S2之后、所述S3之前,進一步包括:將計算出的每一個不大于預設相似度閾值的所述相似度刪除;
所述計算所述當前句子指向所述當前其他句子的相似度,包括:利用公式一或公式二,計算所述當前句子指向所述當前其他句子的相似度;
所述公式一包括:
所述公式二包括:
其中,Va為所述全部句子中的第a個句子,Vb為所述全部句子中的第b個句子,similarity(Va,Vb)為所述第a個句子指向所述第b個句子的相似度,c為所述第a個句子包括的詞語個數,d為所述第b個句子包括的詞語個數,Sae為所述第a個句子包括的第e個詞語的預設詞向量,1≤e≤c,Sbf為所述第b個句子包括的第f個詞語的預設詞向量,1≤f≤d,上標T意為轉置;
和/或,
所述S1,包括:拆分輸入文本,以獲得所述輸入文本包括的每一個段落、每一個所述段落包括的每一個句子、每一個所述句子包括的每一個詞語,其中,所述全部句子按照各個句子在所述輸入文本中的先后出現順序依次排列;
在所述S4之前,進一步包括:根據公式三,對計算出的每一個得分進行優化,并將優化前的各個得分更新替換為相應的優化后的各個得分;
所述公式三包括:
其中,Vi為所述全部句子中的第i個句子,WS(Vi)為所述第i個句子的優化前的得分,WS(Vi)′為所述第i個句子的優化后的得分,g1和g2均為預設調整閾值,p為獲得的首段落包括的句子個數,q為獲得的尾段落包括的句子個數,h為所述全部句子的個數。
2.根據權利要求1所述的方法,其特征在于,
所述分別計算所述全部句子中的每一個句子的得分,包括:根據公式四,分別計算所述全部句子中的每一個句子的得分;
所述公式四包括:
其中,Vm為所述全部句子中的第m個句子,Vn為所述全部句子中的第n個句子,Vk為所述全部句子中的第k個句子,WS(Vm)為所述第m個句子的得分,WS(Vn)為所述第n個句子的得分,x為預設的阻尼系數,similarity(Vn,Vm)為所述第n個句子指向所述第m個句子的相似度,similarity(Vn,Vk)為所述第n個句子指向所述第k個句子的相似度,Vn∈In(Vm),In(Vm)為所述全部句子中指向所述第m個句子的每一個句子的集合,且當前存在有In(Vm)中的任一句子指向所述第m個句子的相似度,Vk∈Out(Vn),Out(Vn)為所述全部句子中所述第n個句子指向的每一個句子的集合,且當前存在有所述第n個句子指向Out(Vn)中的任一句子的相似度,所述全部句子中任一句子的得分的初始值已預定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件股份有限公司,未經浪潮軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810563769.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種英文單詞拼寫檢查方法
- 下一篇:一種界圖





