[發明專利]一種基于萬有引力改進的TextRank的新聞關鍵詞提取方法在審
| 申請號: | 201910441723.8 | 申請日: | 2019-05-24 |
| 公開(公告)號: | CN110162592A | 公開(公告)日: | 2019-08-23 |
| 發明(設計)人: | 張靜靜;孫福權;劉冰玉;孔超然 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F16/951;G06F17/27 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 李馨 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 萬有引力 關鍵詞序列 新聞關鍵詞 新聞數據 預處理 數據預處理 分布計算 概率分布 計算數據 距離計算 模型訓練 時間成本 算法迭代 外部信息 主題模型 詞向量 構建 語料 預設 標注 排序 改進 采集 | ||
1.一種基于萬有引力改進的TextRank的新聞關鍵詞提取方法,其特征在于,包括如下步驟:
對采集到的新聞數據進行數據預處理,獲得用于分析的規整數據;
計算數據預處理后的新聞數據中詞與詞之間的共現頻率,并通過CBOW模型訓練詞向量,然后構建主題模型得到文檔中主題下詞的概率分布和文檔下主題的分布計算每篇文檔下預設詞的主題影響力;
通過詞之間的共現頻率、詞在文檔下主題影響力和詞之間的距離計算出詞與詞之間的吸引力,利用TextRank算法迭代計算得到有序的關鍵詞序列,根據排序好的關鍵詞序列得到指定數量的關鍵詞。
2.根據權利要求1所述的基于萬有引力改進的TextRank的新聞關鍵詞提取方法,其特征在于,利用網絡爬蟲采集所述新聞信息,所述數據預處理包括對給定的新聞數據分詞、去停用詞、去除超鏈接與符號處理。
3.根據權利要求1所述的基于萬有引力改進的TextRank的新聞關鍵詞提取方法,其特征在于,利用現有CBOW模型對新聞數據進行訓練,從而將詞表征為實數值向量,實現對文本內容的處理簡化為K維向量空間中的向量,從而得到詞向量之間的歐式距離:
其中veci和vecj表示詞wi與詞wj的向量。
4.根據權利要求1所述的基于萬有引力改進的TextRank的新聞關鍵詞提取方法,其特征在于,構建隱含主題模型LDA,其中,每篇文檔由k個隱含主題分布表示,每個主題有多個詞的多項式分布表示,通過以下公式計算文檔d中詞w的主題影響力:
其中為文檔d中主題z的概率,為主題為i下的詞w的概率;
通過Gibbs采樣得到詞主題分布概率和主題文檔的分布概率:
其中num(d,z)表示文檔d分配給主題z的頻數,num(z,w)表示主題z分配給詞的頻數,α和β分別表示θ(d)和的超參數,通過結合公式(2)(3)(4)可以得到詞w在文檔d下的主題影響力。
5.根據權利要求1或4所述的基于萬有引力改進的TextRank的新聞關鍵詞提取方法,其特征在于,所述萬有引力常數具體為:
其中freq(wi,wj)是詞wi,詞wj共現的次數,freq(wi),freq(wj)分別是詞wi,詞wi出現在句子中的次數。
6.根據權利要求5所述的基于萬有引力改進的TextRank的新聞關鍵詞提取方法,其特征在于,詞與詞之間的吸引力通過詞在文檔中的主題影響力作為詞的質量,詞向量之間的余弦距離表示詞之間的距離,詞共現頻率為詞之間的萬有引力常數計算獲得,具體為:
其中Gc(i,j)為詞之間的共現頻率,M(wi|d)和M(wj|d)分別為詞在文檔下主題影響力,di,j為詞i,j之間的距離;
對文檔進行圖模型表示,設G=(V,E)是一個圖,其中V是頂點集合,E是邊的集合,則文檔中的每個詞為圖模型中的頂點Vi,在同一句中共現的詞構成圖中的邊Ei,j,利用TextRank算法迭代計算各圖模型節點的權重,從而得到有序的關鍵詞序列,根據排序好的關鍵詞序列得到指定數量的關鍵詞,
其中,Ws(wi)為單詞wi的權重得分,In(wi)表示單詞wi的共現詞集合,In(wj)表示單詞wj的共現詞集合,d為阻尼系數,0≤d≤1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910441723.8/1.html,轉載請聲明來源鉆瓜專利網。





