[發明專利]聲譽管理框架內的新聞議題分析方法和實施系統有效
| 申請號: | 201711043090.2 | 申請日: | 2017-10-31 | 
| 公開(公告)號: | CN107918644B | 公開(公告)日: | 2020-12-08 | 
| 發明(設計)人: | 李言生 | 申請(專利權)人: | 北京銳思愛特咨詢股份有限公司 | 
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/36 | 
| 代理公司: | 北京華睿卓成知識產權代理事務所(普通合伙) 11436 | 代理人: | 劉海 | 
| 地址: | 100027 北京市朝陽區東*** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 聲譽 管理 框架 新聞 議題 分析 方法 實施 系統 | ||
1.一種新聞議題分析方法,所述方法包括以下步驟:
信息采集和去噪步驟S1,實時獲取網絡中發布的新聞信息,經去噪從中獲取有效信息內容,并存儲到第一數據庫中;
信息預處理步驟S2,包括S2-1文本分詞處理,S2-2新聞要素抽取,得到所述新聞信息中包括的新聞要素,S2-3新聞合并與轉載分析,將具有相似、相同新聞要素的新聞文本進行合并歸類,和S2-4實體鏈接,建立新聞實體與知識庫實體的對應鏈接關系,將存儲在第一數據庫中的所述有效信息內容經過信息預處理以后的結果存儲在第二數據庫中;
信息深度處理步驟S3,其中包括議題/事件聚類關聯分析,采用內容-實體關聯議題模型對步驟S2得到的信息預處理結果進行處理得到議題/事件聚類關聯分析結果,其中,所述內容-實體關聯議題模型采用兩個級聯的生成過程分別對內容議題和實體議題進行建模,其中所述內容議題是主要議題并可以和多個實體議題關聯,生成命名實體時,首先需要選擇一個內容議題作為超議題,然后生成與之相關的實體議題,最后基于多項分布生成具體的命名實體;
利益相關方關系圖譜構建及展示步驟S4,根據輸入關鍵詞,結合所述信息深度處理步驟S3生成的議題/事件聚類關聯分析結果,篩選與所述關鍵詞相關的議題,構建并展示利益相關方關系圖譜。
2.根據權利要求1所述的新聞議題分析方法,其中,所述信息采集和去噪步驟S1中獲取的有效信息內容包括標題信息、正文內容信息和輔助信息。
3.根據權利要求1所述的新聞議題分析方法,其中,所述S2-4實體鏈接包括S2-4-1實體候選集合生成,S2-4-2實體候選排序,和S2-4-3無鏈接文本預測。
4.根據權利要求1所述的新聞議題分析方法,其中,實體間關系親疏的度量主要依賴于議題分析得到的議題-實體分布,具體定義為與目標實體相關的議題分布間的余弦相似度,即
其中cos(.,.)用于計算兩個向量的余弦相似度,K為議題數目,p(z|ei)表示實體ei的議題分布,p(z|ej)表示實體ej的議題分布,其中實體ei在具體議題zk上的概率p(zk|ei)需要通過貝葉斯公式計算,即
其中p(zk)和p(ei)分別表示議題zk和實體ei的邊緣概率,ze為實體議題,p(ei|ze)和p(ze|zk)分別表示實體議題ze下實體ei和內容議題zk下實體議題ze的生成概率。
5.一種用于如權利要求1-4中任一項所述的新聞議題分析方法的新聞議題分析系統,所述系統包括以下模塊:
信息采集和去噪模塊M1,用于實時獲取網絡中發布的新聞信息,經去噪從中獲取有效信息內容,并存儲到第一數據庫中;
信息預處理模塊M2,用于對采集到的新聞信息進行預處理,并將結果存儲在第二數據庫中;
信息深度處理模塊M3,用于進行議題/事件聚類關聯分析;
利益相關方關系圖譜構建及展示模塊M4,用于根據輸入關鍵詞,結合所述信息深度處理模塊M3生成的議題/事件聚類關聯分析結果,篩選與所述關鍵詞相關的議題,構建并展示利益相關方關系圖譜。
6.如權利要求5所述的新聞議題分析系統,其中,所述文本信息預處理模塊M2包括文本分詞處理單元M2-1;新聞要素抽取單元M2-2,用于得到新聞要素;新聞合并與轉載分析單元M2-3,用于將具有相似、相同新聞要素的新聞文本進行合并歸類;和實體鏈接單元M2-4,用于建立新聞實體與知識庫實體的對應鏈接關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳思愛特咨詢股份有限公司,未經北京銳思愛特咨詢股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711043090.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可調節固定的水果去核裝置
 - 下一篇:一種水蜜桃的自動去核裝置
 





