[發明專利]一種新聞綜述生成方法與系統有效
| 申請號: | 201710082757.3 | 申請日: | 2017-02-16 |
| 公開(公告)號: | CN106874469B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 張建敏;萬小軍 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 蘇愛華 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新聞 綜述 生成 方法 系統 | ||
1.一種新聞綜述生成方法,其特征在于,該方法通過對面向同一事件的新聞的段落重新分割,重要性排序,選擇并且合并以及最后的重新排序,最終基于重組得到的新聞段落構建新聞綜述;包括如下步驟:
(1)針對原始新聞材料的段落重新分割構建;
(2)對新聞材料重新構建出的段落進行重要性預測;
(3)根據段落重要性進行段落選擇,融合;
(4)對選擇出來的段落進行重排序,構成新聞綜述;其中:
針對原始新聞材料的段落重新分割構建,其具體做法包括四個部分:對新聞材料進行分詞,計算句子間隔的語義學分數,計算句子間隔的“深度”分數,最后對新聞進行劃分;
第一步:原始新聞材料進行分詞預處理;如果是英文的語料需要將單詞都轉化為小寫字母,然后進行詞干化,即將經過各種人稱及時態變化的單詞轉化為其詞干,如果是中文語料那么只需要進行分詞;
第二步:計算句子間隔的語義學分數;對于每一個語義間隔,其前后的文本單位分別用b1和b2表示,那么句子間隔的語義學相似度用如下公式表示;
其中t表示所有在預處理過程中得到的原始新聞中的所有非停用詞的詞語;并且wt,b代表詞語t在語義單元b中的權重,這里的權重用詞語t在語義單元b中出現的頻數決定;這個權重的取值在0到1之間;
第三步:計算句子間隔i的“深度”分數di;計算過程中首先尋找相對于句子間隔i的左邊的高峰位置l和右邊的高峰位置r;左邊的高峰位置l就是相對于句子間隔i向左找到第一個位置,使其滿足dl-1<dl;基于同樣方式得到右邊的高峰位置r,那么di=(dl-di)+(dr-di);
第四步:對新聞進行劃分;在得到每一個句子間隔的“深度”分數di之后,根據不同新聞類型取不同的“深度”分數閾值來決定劃分段落的個數,即設置閾值為d,如果句子間隔的“深度”分數大于d,作為新的段落分割;d滿足正態分布,取閾值為d的平均值與d的標準差σ之間的差值,即
2.根據權利要求1所述的新聞綜述生成方法,其特征在于,對新聞材料重新構建出的段落進行重要性預測;使用基于節點重新加強的隨機游走圖模型進行重要性排序;圖模型的信息圖建立過程是將每一個劃分的新聞段落作為節點,節點之間的TFIDF向量相似度作為初始的轉移概率,特殊的是在同一篇新聞中的段落,轉移概率均為0;
pT(v)是T時刻游走于狀態v的概率,pT(u,v)是T時刻狀態u轉移到狀態v的轉移概率,需要迭代計算,計算公式如下:
pT(v)=∑u∈VpT-1(u,v)pT-1(u)
其中DT(u)=∑v∈Vp0(u,v)·pT(v),而且p*(v)是平均分布概率,表示初始每一個段落即圖中的節點被訪問的概率相同;迭代計算到滿足下面的公式即可,即達到收斂狀態;
∑v∈VpT(v)-pT-1(v)<0.00001
達到收斂之后,pT(v)便是每個段落的重要性分數,λ為常數。
3.根據權利要求2所述的新聞綜述生成方法,其特征在于,根據段落重要性進行段落選擇,融合;由段落的重要性分數,根據需要生成的綜述的字數限制,選擇重要性高的段落構成最終的新聞綜述;選擇的過程中進行段落的融合;段落融合的過程根據下面的算法描述進行:
算法:段落融合
輸入:段落集合G={g1,...gn},并且每個段落都有一個重要性分數p(gi)每兩個段落gi和gj之間的余弦相似度值gSimi,j
輸出:新聞綜述的段落集合O
算法過程:
4.根據權利要求3所述的新聞綜述生成方法,其特征在于,對選擇出來的段落進行重排序,構成新聞綜述;使用拓撲排序的方法對新聞綜述的段落集合進行重新排序;重新排序滿足兩大準則:
第一大準則是如果段落gi和段落gj來自于同一篇原始新聞,那么段落的前后順序保持原來的順序,且位置在結果中相鄰;
第二大準則是如果段落gi和段落gj不是來自于同一篇原始新聞,那么含有重要性分數高的段落及與其來自于同一篇原始新聞的段落靠前排列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710082757.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種影像文件管理的方法及系統
- 下一篇:一種人員信息評測方法及系統





