[發明專利]基于微博的娛樂新聞自動構建技術與系統在審
| 申請號: | 201710177559.5 | 申請日: | 2017-03-23 |
| 公開(公告)號: | CN107102976A | 公開(公告)日: | 2017-08-29 |
| 發明(設計)人: | 王天明;萬小軍 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06K9/62 |
| 代理公司: | 北京萬象新悅知識產權代理事務所(普通合伙)11360 | 代理人: | 張肖琪 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 娛樂 新聞 自動 構建 技術 系統 | ||
1.一種基于微博的娛樂新聞自動構建技術系統,其特征在于,該方法通過對該方法通過對微博提取多類特征,使用機器學習的方法來對微博進行分類,預測微博是否有新聞價值,隨后使用以模板為主的方式對有新聞價值的微博自動構建新聞。該方法既能生成豐富的用戶關注的新聞,又能有效節省人力物力。
2.一種基于微博的娛樂新聞自動構建技術,其特征在于包括如下步驟:
(1)獲取微博數據、在線匹配標注數據并劃分數據集;
(2)對微博數據提取特征并訓練分類器;
(3)實時抓取最新微博并使用分類器預測判斷其是否具有新聞價值;
(4)對有新聞價值的微博用模板生成新聞。
3.根據權利要求2所述的基于微博的娛樂新聞生成技術,其特征在于,通過微博API來獲取微博數據并利用新聞檢索引擎來標注數據。
首先通過新浪微博的API抓取了一千余明星的數十萬條微博,抓取數據包括微博的用戶信息、微博內容、微博的點贊、轉發和評論數以及與其他微博之間的轉發關系。這些信息將用作判別微博是否具有新聞價值的特征。
由于微博的新聞價值并沒有明確的定義和區分界限,本技術將已經被各大新聞網站編輯發布為新聞的微博視為有新聞價值,并以此作為之后系統進行機器學習并實時推測判定微博是否有新聞價值的依據。因此除去抓取的微博外,本系統還通過百度新聞檢索引擎API對每條微博進行在線匹配,用于檢索判定是否有基于該微博的新聞存在。檢索的關鍵字為明星的名字和該微博的文本內容,匹配取決于微博文本與檢索結果返回的新聞摘要之間的重合度。重合度用微博中的子句是否完整地出現在新聞摘要中來衡量,如果出現的總字數超過10即認為新聞是基于該微博的。按照在線匹配的結果對數據進行是否有新聞價值的標注。
4.根據權利要求2所述的新聞綜述生成方法,其特征在于,從已獲取的微博數據中對每條微博提取用戶特征、交互特征、文本特征和其他特征四類共6966維作為判定微博是否有新聞價值的依據,并使用隨機森林這一集成學習算法作為分類器。對于提取的四類特征具體描述如下:
(1)用戶特征是指與微博用戶相關的信息組成的特征,包括用戶的微博粉絲數,用戶所有微博的平均點贊數、評論數和轉發數。這些特征主要用來衡量用戶的受歡迎程度。
(2)交互特征反映的是公眾與該條微博互動情況,包括該條微博的點贊數、評論數和轉發數。考慮到不同用戶之間的粉絲數之間有較大差距,將該條微博的點贊數、評論數和轉發數分別除以該用戶的平均點贊數、評論數和轉發數,更能反映該條微博的受關注度。
(3)文本是微博中信息最豐富的特征之一,它是微博的主體,講述了微博的內容。本系統使用了jieba工具來完成中文分詞。對分詞后的文本,提取以下兩種特征:詞袋向量(bag of words)和改進的TF-IDF權重和。
詞袋向量是指將所有微博中出現的每個不同的詞作為向量的一個維度,每條微博中該詞出現的次數就是這一維的值。這樣每條微博文本就可以用一個高維度向量來表示。盡管該模型會忽略文本的詞序和語法,但仍是表示文本內容的一個有效手段。為避免向量維度過高,我們去除了一些低頻詞和高信息熵詞。低頻詞指的是在所有微博(共28830條)中出現次數不足10次的詞。這些詞往往具有高度特殊性,也可能是錯詞,只出現在幾條特定的微博中。高信息熵詞指的是那些在正例和負例微博中均衡出現的詞,比如像一些人稱代詞或者助詞。
對于信息熵計算的定義,由Shannon等人在1963年提出:
entropyi=H(p(C|wordi))
=-(p(Positive|wordi)log p(Positive|wordi)
+p(Negative|wordi)log p(Negative|wordi))
其中p(Positive|wordi)表示含詞wordi的微博為正例的條件概率,
p(Negative|wordi)含詞wordi的微博為負例的條件概率。根據以上公式計算,信息熵高于0.7的詞將被過濾。
除了詞袋模型的向量表示外,另一個特征就是改進的TF-IDF權重和。TF-IDF值是一種統計方法,用于評估一個詞對一個文本的重要程度,由詞頻和逆向文件頻率計算可得。而將一個文本中所有詞的TF-IDF值相加可以得到權重和,表示整個文本的重要程度。考慮到同一個詞對正例文本和負例文本的重要程度不同,這里用以下改進的公式來計算TF-IDF和:
其中tfidf_pi表示在正例文本集(由有新聞價值的微博組成)中計算得到的詞i的TF-IDF值,tfidf_ni表示在負例文本集(由無新聞價值的微博組成)中計算得到的詞i的TF-IDF值。兩者做差用以表示該條文本含有新聞價值的程度。
以上兩者共6939(6938+1)維,構成了數據的文本特征。
(4)其他特征指的是從微博中一些特殊表達式中提取出來的特征。微博中的特殊表達式包括表情(比如[玫瑰])、URL鏈接(比如https://weibo.com)、@(比如@新浪微博)等。這里各用一維向量來表示微博中的表情數、URL鏈接數和@數。除此之外,本方法還記錄了微博的原創轉發情況,用以區分每條微博是否為原創和轉發。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710177559.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子書勘誤方法及電子書勘誤裝置
- 下一篇:情感信息的提取方法及裝置





