[發明專利]一種文本數據統計方法、裝置和服務器在審
| 申請號: | 201711436235.5 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108197102A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 雍倩;尹存祥;吳偉佳;黎愛坤;鄢勝利;韋庭 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 王珺;徐瑞紅 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 比對 文本 目標文本 文本相似度 分析對象 文本集合 文本數據 服務器 語義相似度 獲取目標 統計結果 一次搜索 統計 短文本 受眾 算法 搜索 輸出 分析 | ||
本發明提出一種文本數據統計方法、裝置和服務器,所述方法包括:獲取目標文本和第一待比對文本集合;其中,所述第一待比對文本集合包括多個待比對文本,每個待比對文本為用戶在一次搜索中輸入的搜索文本;根據短文本語義相似度算法,計算每個待比對文本與所述目標文本之間的文本相似度,并且將所述文本相似度大于第一閾值的待比對文本作為待分析對象;和基于用戶的至少一個屬性,對所述待分析對象對應的用戶進行統計,生成并輸出統計結果。本發明實施例中,能夠實現針對對目標文本感興趣的用戶、即目標文本對應的事件所針對的受眾的分析。
技術領域
本發明涉及互聯網領域,并具體涉及一種文本數據統計方法、裝置和服務 器。
背景技術
目前,互聯網技術在全球范圍內得到了廣泛的應用,人們越來越多地通過 互聯網來進行各種活動,而網絡媒體也成為了不容忽視的新興媒體,得到了廣 泛關注。
與報紙、無線廣播和電視等傳統的傳播媒體相比,網絡媒體具有進入門檻 低、信息超大規模、信息發布與傳播迅速、參與群體龐大、實時交互性強等綜 合性特點。由于網絡信息的發布成本極低,信息的提供者、傳播者和閱讀者之 間已經沒有明顯的界限。信息網絡已成為一個“虛擬社會”,具有非常明顯的社 會群體特征。特別是當有事件發生時,人們都會通過新聞評論、社區論壇、微 博等方式參與討論。而通過相應的輿情分析,則可以了解到民眾的關心問題等 重要信息。
輿情分析很重要的一點是對事件受眾的分析和確定。如何通過對網絡上產 生的海量數據的分析來得到事件的準確受眾,是一個亟待解決的重要問題。
發明內容
本發明實施例提供一種文本數據統計方法、裝置和服務器,以至少解決現 有技術中的以上技術問題。
第一方面,本發明實施例提供了一種文本數據統計方法,包括:
獲取目標文本和第一待比對文本集合;其中,所述第一待比對文本集合包 括多個待比對文本,每個待比對文本為用戶在一次搜索中輸入的搜索文本;
根據短文本語義相似度算法,計算每個待比對文本與所述目標文本之間的 文本相似度,并且將所述文本相似度大于第一閾值的待比對文本作為待分析對 象;和
基于用戶的至少一個屬性,對所述待分析對象對應的用戶進行統計,生成 并輸出統計結果。
結合第一方面,本發明在第一方面的第一種實施方式中,所述根據短文本 語義相似度算法,計算每個待比對文本與所述目標文本之間的文本相似度,并 且將所述文本相似度大于第一閾值的待比對文本作為待分析對象包括:
利用Elasticsearch,計算每個待比對文本和所述目標文本之間的第一相似 度;
從所述第一待比對文本集合中篩選出所述第一相似度大于第二閾值的待比 對文本,并且將剩余的待比對文本作為第二待比對文本集合;
針對所述目標文本和所述第二待比對文本集合中的每個文本進行分詞,得 到用于每個文本的至少一個關鍵詞;
利用word2vec模型對所述至少一個關鍵詞進行向量表示,并且將用于每個 文本的向量進行累加,得到相應的累加結果;和
根據用于所述目標文本的累加結果和用于所述第二待比對文本集合中的每 個待比對文本的累加結果,計算所述第二待比對文本集合中的每個待比對文本 和所述目標文本之間的文本相似度,并且將所述文本相似度大于第一閾值的待 比對文本作為待分析對象。
結合第一方面的第一種實施方式,所述文本相似度為余弦相似度,并且利 用以下公式來計算所述余弦相似度:
其中,x和y均為向量,sim(X,Y)為向量x和y之間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711436235.5/2.html,轉載請聲明來源鉆瓜專利網。





