日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于微博的娛樂新聞自動構建技術與系統在審

專利信息
申請號: 201710177559.5 申請日: 2017-03-23
公開(公告)號: CN107102976A 公開(公告)日: 2017-08-29
發明(設計)人: 王天明;萬小軍 申請(專利權)人: 北京大學
主分類號: G06F17/24 分類號: G06F17/24;G06K9/62
代理公司: 北京萬象新悅知識產權代理事務所(普通合伙)11360 代理人: 張肖琪
地址: 100871*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 娛樂 新聞 自動 構建 技術 系統
【權利要求書】:

1.一種基于微博的娛樂新聞自動構建技術系統,其特征在于,該方法通過對該方法通過對微博提取多類特征,使用機器學習的方法來對微博進行分類,預測微博是否有新聞價值,隨后使用以模板為主的方式對有新聞價值的微博自動構建新聞。該方法既能生成豐富的用戶關注的新聞,又能有效節省人力物力。

2.一種基于微博的娛樂新聞自動構建技術,其特征在于包括如下步驟:

(1)獲取微博數據、在線匹配標注數據并劃分數據集;

(2)對微博數據提取特征并訓練分類器;

(3)實時抓取最新微博并使用分類器預測判斷其是否具有新聞價值;

(4)對有新聞價值的微博用模板生成新聞。

3.根據權利要求2所述的基于微博的娛樂新聞生成技術,其特征在于,通過微博API來獲取微博數據并利用新聞檢索引擎來標注數據。

首先通過新浪微博的API抓取了一千余明星的數十萬條微博,抓取數據包括微博的用戶信息、微博內容、微博的點贊、轉發和評論數以及與其他微博之間的轉發關系。這些信息將用作判別微博是否具有新聞價值的特征。

由于微博的新聞價值并沒有明確的定義和區分界限,本技術將已經被各大新聞網站編輯發布為新聞的微博視為有新聞價值,并以此作為之后系統進行機器學習并實時推測判定微博是否有新聞價值的依據。因此除去抓取的微博外,本系統還通過百度新聞檢索引擎API對每條微博進行在線匹配,用于檢索判定是否有基于該微博的新聞存在。檢索的關鍵字為明星的名字和該微博的文本內容,匹配取決于微博文本與檢索結果返回的新聞摘要之間的重合度。重合度用微博中的子句是否完整地出現在新聞摘要中來衡量,如果出現的總字數超過10即認為新聞是基于該微博的。按照在線匹配的結果對數據進行是否有新聞價值的標注。

4.根據權利要求2所述的新聞綜述生成方法,其特征在于,從已獲取的微博數據中對每條微博提取用戶特征、交互特征、文本特征和其他特征四類共6966維作為判定微博是否有新聞價值的依據,并使用隨機森林這一集成學習算法作為分類器。對于提取的四類特征具體描述如下:

(1)用戶特征是指與微博用戶相關的信息組成的特征,包括用戶的微博粉絲數,用戶所有微博的平均點贊數、評論數和轉發數。這些特征主要用來衡量用戶的受歡迎程度。

(2)交互特征反映的是公眾與該條微博互動情況,包括該條微博的點贊數、評論數和轉發數。考慮到不同用戶之間的粉絲數之間有較大差距,將該條微博的點贊數、評論數和轉發數分別除以該用戶的平均點贊數、評論數和轉發數,更能反映該條微博的受關注度。

(3)文本是微博中信息最豐富的特征之一,它是微博的主體,講述了微博的內容。本系統使用了jieba工具來完成中文分詞。對分詞后的文本,提取以下兩種特征:詞袋向量(bag of words)和改進的TF-IDF權重和。

詞袋向量是指將所有微博中出現的每個不同的詞作為向量的一個維度,每條微博中該詞出現的次數就是這一維的值。這樣每條微博文本就可以用一個高維度向量來表示。盡管該模型會忽略文本的詞序和語法,但仍是表示文本內容的一個有效手段。為避免向量維度過高,我們去除了一些低頻詞和高信息熵詞。低頻詞指的是在所有微博(共28830條)中出現次數不足10次的詞。這些詞往往具有高度特殊性,也可能是錯詞,只出現在幾條特定的微博中。高信息熵詞指的是那些在正例和負例微博中均衡出現的詞,比如像一些人稱代詞或者助詞。

對于信息熵計算的定義,由Shannon等人在1963年提出:

entropyi=H(p(C|wordi))

=-(p(Positive|wordi)log p(Positive|wordi)

+p(Negative|wordi)log p(Negative|wordi))

其中p(Positive|wordi)表示含詞wordi的微博為正例的條件概率,

p(Negative|wordi)含詞wordi的微博為負例的條件概率。根據以上公式計算,信息熵高于0.7的詞將被過濾。

除了詞袋模型的向量表示外,另一個特征就是改進的TF-IDF權重和。TF-IDF值是一種統計方法,用于評估一個詞對一個文本的重要程度,由詞頻和逆向文件頻率計算可得。而將一個文本中所有詞的TF-IDF值相加可以得到權重和,表示整個文本的重要程度。考慮到同一個詞對正例文本和負例文本的重要程度不同,這里用以下改進的公式來計算TF-IDF和:

d=ΣwordiTtfidf_pi-tfidf_ni]]>

其中tfidf_pi表示在正例文本集(由有新聞價值的微博組成)中計算得到的詞i的TF-IDF值,tfidf_ni表示在負例文本集(由無新聞價值的微博組成)中計算得到的詞i的TF-IDF值。兩者做差用以表示該條文本含有新聞價值的程度。

以上兩者共6939(6938+1)維,構成了數據的文本特征。

(4)其他特征指的是從微博中一些特殊表達式中提取出來的特征。微博中的特殊表達式包括表情(比如[玫瑰])、URL鏈接(比如https://weibo.com)、@(比如@新浪微博)等。這里各用一維向量來表示微博中的表情數、URL鏈接數和@數。除此之外,本方法還記錄了微博的原創轉發情況,用以區分每條微博是否為原創和轉發。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710177559.5/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产女人与拘做受免费视频| 欧美在线观看视频一区二区| 欧美一区二区精品久久| 国产精品九九九九九| 97人人模人人爽视频一区二区 | 亚洲精品少妇一区二区| 国产精品9区| 国产精品高潮在线| 亚洲一区二区三区加勒比| 日韩欧美激情| 热久久一区二区| 久久国产精久久精产国| 国产精自产拍久久久久久蜜 | 欧美精品日韩精品| 999亚洲国产精| 19videosex性欧美69| 超碰97国产精品人人cao| 久久久久国产亚洲| 色妞www精品视频| 国产一区二区日韩| 国产精品二区一区| 国产在线欧美在线| 亚洲欧美一区二区三区1000| 欧美性猛交xxxxxⅹxx88| 精品一区电影国产| 午夜爽爽视频| 日韩精品久久一区二区| 中文字幕另类日韩欧美亚洲嫩草| 午夜肉伦伦| 亚洲精品日本久久一区二区三区| 欧美一区二三区| 日韩精品久久一区二区| 欧美性二区| 97视频一区| 丰满岳乱妇bd在线观看k8| 欧美国产一区二区三区激情无套| 97人人澡人人添人人爽超碰| 国产精品99在线播放| 麻豆精品久久久| 久久综合二区| 午夜精品一二三区| 国产的欧美一区二区三区| 一本大道久久a久久精品| 丰满岳乱妇在线观看中字 | 日本一码二码三码视频| 97欧美精品| 久久夜靖品2区| 国产偷亚洲偷欧美偷精品| 国产在线一区二区视频| 色综合久久久| 国产一区在线免费| 国产品久精国精产拍| 亚洲乱子伦| 久久久久久久亚洲国产精品87| 欧美日韩一区二区三区69堂| 欧美一区二区三区久久久久久桃花 | 欧美日韩国产123| 26uuu色噜噜精品一区二区 | 91精品一区二区在线观看| 欧美精品九九| 天摸夜夜添久久精品亚洲人成| 精品国产区| av国产精品毛片一区二区小说| 国产亚洲另类久久久精品 | 国产区二区| 国产精品乱码久久久久久久| 亚洲精品日韩精品| 久久人91精品久久久久久不卡| 中文字幕制服丝袜一区二区三区| 亚洲综合日韩精品欧美综合区| 亚洲国产精品一区二区久久,亚洲午夜| 国产精品免费一区二区区| 国产精品一区一区三区| 国产精品久久久久久久久久不蜜月| 免费超级乱淫视频播放| 日韩精品久久久久久久的张开腿让| 欧美久久一区二区三区| 欧美一区二区三区久久精品视 | 国产精品电影免费观看| 国产一区二区三区黄| 一区二区三区在线观看国产| 7777久久久国产精品| 午夜一区二区三区在线观看| 日本边做饭边被躁bd在线看| 欧美高清极品videossex| 亚洲美女在线一区| 精品国产伦一区二区三区| 欧美在线视频二区| 国产精品午夜一区二区| 久久国产精品波多野结衣 | 国产激情二区| 国产视频一区二区在线| 日韩欧美精品一区二区三区经典| 久久一区二区三区欧美| 亚洲第一天堂无码专区| 亚洲精品丝袜| 久久狠狠高潮亚洲精品| 国产69精品99久久久久久宅男| 一色桃子av大全在线播放| 欧美精品粉嫩高潮一区二区| 香港三日三级少妇三级99| 午夜影皖精品av在线播放| 日韩精品乱码久久久久久| 精品欧美一区二区精品久久小说| 国产精品19乱码一区二区三区| 色综合久久精品| 午夜三级大片| 国产一区二区三区乱码| 国产黄色网址大全| 精品国产乱码久久久久久影片| 91精彩刺激对白露脸偷拍| 亚洲精品国产主播一区| 国产精品乱码久久久久久久久| 国产aⅴ一区二区| 97人人澡人人添人人爽超碰| 欧美亚洲视频二区| 日韩精品久久久久久中文字幕8| 午夜影院一区| 中文字幕日韩一区二区| 精品国精品国产自在久不卡| 日韩精品久久久久久久电影99爱| 亚洲天堂国产精品| 欧美一区二区三区久久| 狠狠色噜噜狠狠狠狠黑人| 亚洲欧美国产精品久久| 在线国产一区二区三区| 91av精品| 中文字幕欧美日韩一区| 欧美一区二区免费视频| 91精品视频免费在线观看| 国产精品自产拍在线观看桃花| 亚洲精品456| 亲子乱子伦xxxx| 91精品福利在线| 国产区一二| 国产一区二区高清视频| 欧美精品久| 999久久久国产| 精品一区电影国产| 久久91精品国产91久久久| 日韩av一二三四区| 国产麻豆一区二区| 国产乱子一区二区| 午夜影院你懂的| 69精品久久| 国产99小视频| 一本色道久久综合亚洲精品浪潮| 日韩欧美中文字幕一区| 一级午夜影院| 国产精品尤物麻豆一区二区三区| 91热精品| 欧美一区二区三区免费在线观看| 久久国产精品精品国产| 日韩一区国产| 一色桃子av大全在线播放| 国产盗摄91精品一区二区三区| 中文字幕二区在线观看| 亚洲区在线| 国产欧美一区二区三区在线| 视频一区二区国产| 国产色99| 国产乱对白刺激视频在线观看| 99久久国产综合| 国产一区观看| 色综合久久网| 国产一区网址| 91国产一区二区| 黄色av免费| 欧美一区二区久久久| 男女午夜影院| 亚洲精品一区,精品二区| 欧美国产精品久久| 亚洲一级中文字幕| 国产精品一级片在线观看| 欧美日韩一区二区三区在线播放| 日本激情视频一区二区三区| 久久国产精品二区| 欧洲在线一区二区| 天天射欧美| 国产特级淫片免费看| 国产视频一区二区不卡| 日韩精品一区二区三区在线| 淫片免费看| 综合国产一区| 亚洲精品国产主播一区| 国产亚洲欧美日韩电影网| 国模精品免费看久久久| 中文字幕天天躁日日躁狠狠躁免费 | 2023国产精品久久久精品双| 日本道欧美一区二区aaaa| 色婷婷久久一区二区三区麻豆| 一区二区免费播放| 在线国产精品一区| 亚洲国产精品入口| 国产91免费在线| 国产淫片免费看| 91麻豆精品国产综合久久久久久| 狠狠色狠狠综合久久| 国产精品久久久久久久久久久新郎 | 粉嫩久久99精品久久久久久夜| 国产伦精品一区二区三区免费优势| 国产日韩欧美另类| www色视频岛国| 女女百合互慰av| 91麻豆精品国产综合久久久久久| 久久精品爱爱视频| 一二三区欧美| 国产美女视频一区二区三区| 日韩精品免费一区二区中文字幕| 99国产超薄丝袜足j在线观看| 国产一区二区在线观| 亚洲乱在线| 热久久一区二区| 国产乱人伦精品一区二区三区| 国产乱xxxxx国语对白| 91精品视频在线免费观看| 久久精品视频中文字幕| 国产精品天堂| 国产精品久久久久久久久久不蜜月| 国产免费一区二区三区四区五区| 国产一区在线免费| 久久99精品久久久大学生| 波多野结衣女教师30分钟| 国产精品v一区二区三区| 国内精品99| 日本精品一区二区三区视频| 久久99精品久久久大学生| 欧美片一区二区| 综合久久一区| 日韩午夜电影院| 国模少妇一区二区三区| 国产午夜精品一区二区三区在线观看 | 久久99精品久久久野外直播内容 | 精品国产伦一区二区三区免费| 亚洲精品久久久久中文第一暮| 久久综合激情网| 99国产伦精品一区二区三区| 国产欧美日韩一级| 国产欧美精品一区二区在线播放| 国产精品入口麻豆九色| 一区二区在线精品| 国产精品久久91| 国产不卡一区在线| 国产91麻豆视频| 国产日韩欧美三级| 首页亚洲欧美制服丝腿|